DeepSeek: DeepSeek V4 Flash

deepseek/deepseek-v4-flash

プロバイダ: deepseek · コンテキスト: 1,000,000 tokens

総合スコア
83.9
26 ラン
入力単価
$0.09 / M tokens
出力単価
$0.18 / M tokens
累計コスト
$0.0039
チャット性能ランキング: 2位 / 4モデル中 · エージェント: 4位

🛡 信頼性 & 速度

実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事

信頼性グレード
A
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 52
timeout 0 / rate_limit 0
judge フラグ率
7.7%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 26.3 (低いほど安定) 📅 最終検証: 2026-06-24

📊 サブカテゴリ別スコア

カテゴリ サブカテゴリ スコア サンプル 最低/最高
agent_coding bugfix 100.0 1 100 / 100
chat sql_generation 100.0 1 100 / 100
chat hallucination 99.0 1 99 / 99
chat tone_control 98.0 1 98 / 98
chat structured_output 97.5 2 95 / 100
chat business_writing 96.0 3 95 / 97
chat creativity 95.7 3 95 / 97
chat fluency 95.0 2 95 / 95
chat safety 95.0 1 95 / 95
chat style_transfer 95.0 1 95 / 95
agent_coding long_horizon 93.0 1 93 / 93
chat long_context 93.0 1 93 / 93
chat translation 92.5 2 90 / 95
agent_coding test_generation 85.0 1 85 / 85
agent_coding refactor 65.0 1 65 / 65
chat instruction_following 60.0 1 60 / 60
chat reasoning 50.0 2 0 / 100
agent_coding tool_use 0.0 1 0 / 0

⚠️ 疑わしいラン (4件)

judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン

実行日時 タスク スコア per_call flag Δ
2026-06-24 15:22 agent-refactor-v1 65.0 [65,65,0,85] ⚠️ 20
2026-06-24 15:07 chat-translation-en-ja-v1 98.0 [100,95,98,0] ⚠️ 98
2026-06-24 14:53 chat-jp-math-v1 82.0 [85,0,82,0] ⚠️ 82
2026-06-24 14:48 chat-jp-instruction-v1 60.0 [75,60,55,0] ⚠️ 60

📜 最近のラン履歴

実行日時 タスク スコア コスト 時間 判定
2026-06-24 15:27 agent-toolcall-v1 0.0 $0.0004 0.0s モデル出力が空であり、タスクで要求された有効なJSON形式の2つのツールコールが全く出力されていないため、タスク未達成です。正確性、流暢さ、有用性のいずれも評価できず、指示への追従が完全に欠けています。
2026-06-24 15:27 agent-toolcall-v1 0.0 $0.0004 0.0s モデル出力が完全に空であり、タスクで要求されているツール呼び出しのJSON配列が一切生成されていない。期待される2つのツール呼び出しが存在せず、評価基準を全く満たしていない。
2026-06-24 15:25 agent-testgen-v1 85.0 $0.0002 0.0s コードは網羅的で、通常ケース・境界値・型エラー・大きな数値などバランスよくテストしており、評価基準の網羅性・境界値を満たしています。ただし、独立性の観点ではテストケース間の依存がなく問題ないものの、0の扱い(通常FizzBuzzの定義では0はFizzBuzzとしないことが多い)や負の値が必要かは仕様次第であり、少し過剰かもしれません。全体として質は高く、軽微な減点に留めます。
2026-06-24 15:25 agent-testgen-v1 95.0 $0.0002 0.0s テストコードは網羅性・境界値・独立性の基準を満たしており、pytestの構文も正確です。ただし、0の期待値を「FizzBuzz」としている点は一般的なFizzBuzz仕様と異なる可能性があるため、correctnessをやや減点しました。全体的に流暢で有用、安全です。
2026-06-24 15:22 agent-refactor-v1 65.0 $0.0000 0.0s コードブロックは正しく出力されており、リファクタリングのタスクとして一応の形をなしているが、元のコードが不明なため動作保存の確認ができず、可読性や構造化の改善も限定的である。また、指示に従ったリファクタリングの説明や変更点の記述がなく、タスクの要求を完全には満たしていない。
2026-06-24 15:22 agent-refactor-v1 81.0 $0.0000 0.0s コードは動作の保存を概ね達成しているが、qtyが0以下の場合の割引ロジックが不明瞭で完全な正確性に欠ける。可読性は良好だが、モダンな表現やコメントがなく改善余地がある。構造化は単一関数であり、タスク指示に沿っているが、より明確なリファクタリング提案が期待される。有害性はなく安全。
2026-06-24 15:18 agent-multi-step-v1 93.0 $0.0004 0.0s CLI TODOツールとして完全に動作し、テストコードも付属している。コード品質も高く、日本語としての説明は含まれないが、タスクの要求を十分に満たしている。軽微な改善点として、テストが標準出力の文字列比較に依存しており、出力形式の変更に弱い点が挙げられる。
2026-06-24 15:18 agent-multi-step-v1 95.0 $0.0004 0.0s モデル出力は完全かつ動作可能なTODO CLIを提供しており、追加・一覧表示・完了・削除の機能とJSON永続化、エラーハンドリング、テストコードまで含まれています。コード品質も高く、日本語のドキュメントやコメントも自然です。評価基準(完全性、動作可能性、テスト、コード品質)をすべて満たしており、軽微な改善点(テスト分離の完璧さ)を除けばほぼ完璧です。
2026-06-24 15:14 agent-bugfix-v1 100.0 $0.0001 0.0s バグの特定(ZeroDivisionError)と最小限の修正(先頭での空チェック)が的確で、説明も原因と修正意図が明確に述べられている。日本語も自然で安全上の問題もない。
2026-06-24 15:14 agent-bugfix-v1 96.0 $0.0001 0.0s モデル出力は、空リストにおけるゼロ除算バグを正確に特定し、最小限の修正(早期リターン)を提示し、原因と修正内容を明確に日本語で説明しています。評価基準の「バグの特定」「最小修正」「説明の明確さ」すべてを完全に満たしており、ほぼ完璧な回答です。