DeepSeek: DeepSeek V4 Flash

deepseek/deepseek-v4-flash

プロバイダ: deepseek · コンテキスト: 1,000,000 tokens

総合スコア

83.9

26 ラン

入力単価

$0.09 / M tokens

出力単価

$0.18 / M tokens

累計コスト

$0.0039

チャット性能ランキング: 2位 / 4モデル中 · エージェント: 4位

🛡 信頼性 & 速度

実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事

信頼性グレード

成功率 100.0%

速度

⏱️ 中速

平均 -

失敗

0 / 52

timeout 0 / rate_limit 0

judge フラグ率

7.7%

judge不一致検出

📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 26.3 (低いほど安定) 📅 最終検証: 2026-06-24

📊 サブカテゴリ別スコア

カテゴリ	サブカテゴリ	スコア	サンプル	最低/最高
agent_coding	bugfix	100.0	1	100 / 100
chat	sql_generation	100.0	1	100 / 100
chat	hallucination	99.0	1	99 / 99
chat	tone_control	98.0	1	98 / 98
chat	structured_output	97.5	2	95 / 100
chat	business_writing	96.0	3	95 / 97
chat	creativity	95.7	3	95 / 97
chat	fluency	95.0	2	95 / 95
chat	safety	95.0	1	95 / 95
chat	style_transfer	95.0	1	95 / 95
agent_coding	long_horizon	93.0	1	93 / 93
chat	long_context	93.0	1	93 / 93
chat	translation	92.5	2	90 / 95
agent_coding	test_generation	85.0	1	85 / 85
agent_coding	refactor	65.0	1	65 / 65
chat	instruction_following	60.0	1	60 / 60
chat	reasoning	50.0	2	0 / 100
agent_coding	tool_use	0.0	1	0 / 0

⚠️ 疑わしいラン (4件)

judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン

実行日時	タスク	スコア	per_call	flag	Δ
2026-06-24 15:22	agent-refactor-v1	65.0	[65,65,0,85]	⚠️	20
2026-06-24 15:07	chat-translation-en-ja-v1	98.0	[100,95,98,0]	⚠️	98
2026-06-24 14:53	chat-jp-math-v1	82.0	[85,0,82,0]	⚠️	82
2026-06-24 14:48	chat-jp-instruction-v1	60.0	[75,60,55,0]	⚠️	60

📜 最近のラン履歴

実行日時	タスク	スコア	コスト	時間	判定
2026-06-24 15:27	agent-toolcall-v1	0.0	$0.0004	0.0s	モデル出力が空であり、タスクで要求された有効なJSON形式の2つのツールコールが全く出力されていないため、タスク未達成です。正確性、流暢さ、有用性のいずれも評価できず、指示への追従が完全に欠けています。
2026-06-24 15:27	agent-toolcall-v1	0.0	$0.0004	0.0s	モデル出力が完全に空であり、タスクで要求されているツール呼び出しのJSON配列が一切生成されていない。期待される2つのツール呼び出しが存在せず、評価基準を全く満たしていない。
2026-06-24 15:25	agent-testgen-v1	85.0	$0.0002	0.0s	コードは網羅的で、通常ケース・境界値・型エラー・大きな数値などバランスよくテストしており、評価基準の網羅性・境界値を満たしています。ただし、独立性の観点ではテストケース間の依存がなく問題ないものの、0の扱い（通常FizzBuzzの定義では0はFizzBuzzとしないことが多い）や負の値が必要かは仕様次第であり、少し過剰かもしれません。全体として質は高く、軽微な減点に留めます。
2026-06-24 15:25	agent-testgen-v1	95.0	$0.0002	0.0s	テストコードは網羅性・境界値・独立性の基準を満たしており、pytestの構文も正確です。ただし、0の期待値を「FizzBuzz」としている点は一般的なFizzBuzz仕様と異なる可能性があるため、correctnessをやや減点しました。全体的に流暢で有用、安全です。
2026-06-24 15:22	agent-refactor-v1	65.0	$0.0000	0.0s	コードブロックは正しく出力されており、リファクタリングのタスクとして一応の形をなしているが、元のコードが不明なため動作保存の確認ができず、可読性や構造化の改善も限定的である。また、指示に従ったリファクタリングの説明や変更点の記述がなく、タスクの要求を完全には満たしていない。
2026-06-24 15:22	agent-refactor-v1	81.0	$0.0000	0.0s	コードは動作の保存を概ね達成しているが、qtyが0以下の場合の割引ロジックが不明瞭で完全な正確性に欠ける。可読性は良好だが、モダンな表現やコメントがなく改善余地がある。構造化は単一関数であり、タスク指示に沿っているが、より明確なリファクタリング提案が期待される。有害性はなく安全。
2026-06-24 15:18	agent-multi-step-v1	93.0	$0.0004	0.0s	CLI TODOツールとして完全に動作し、テストコードも付属している。コード品質も高く、日本語としての説明は含まれないが、タスクの要求を十分に満たしている。軽微な改善点として、テストが標準出力の文字列比較に依存しており、出力形式の変更に弱い点が挙げられる。
2026-06-24 15:18	agent-multi-step-v1	95.0	$0.0004	0.0s	モデル出力は完全かつ動作可能なTODO CLIを提供しており、追加・一覧表示・完了・削除の機能とJSON永続化、エラーハンドリング、テストコードまで含まれています。コード品質も高く、日本語のドキュメントやコメントも自然です。評価基準（完全性、動作可能性、テスト、コード品質）をすべて満たしており、軽微な改善点（テスト分離の完璧さ）を除けばほぼ完璧です。
2026-06-24 15:14	agent-bugfix-v1	100.0	$0.0001	0.0s	バグの特定（ZeroDivisionError）と最小限の修正（先頭での空チェック）が的確で、説明も原因と修正意図が明確に述べられている。日本語も自然で安全上の問題もない。
2026-06-24 15:14	agent-bugfix-v1	96.0	$0.0001	0.0s	モデル出力は、空リストにおけるゼロ除算バグを正確に特定し、最小限の修正（早期リターン）を提示し、原因と修正内容を明確に日本語で説明しています。評価基準の「バグの特定」「最小修正」「説明の明確さ」すべてを完全に満たしており、ほぼ完璧な回答です。