DeepSeek: DeepSeek V4 Flash
deepseek/deepseek-v4-flash プロバイダ: deepseek · コンテキスト: 1,000,000 tokens
総合スコア
83.9
26 ラン
入力単価
$0.09 / M tokens
出力単価
$0.18 / M tokens
累計コスト
$0.0039
チャット性能ランキング: 2位 / 4モデル中 · エージェント: 4位
🛡 信頼性 & 速度
実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事
信頼性グレード
A
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 52
timeout 0 / rate_limit 0
judge フラグ率
7.7%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 26.3 (低いほど安定) 📅 最終検証: 2026-06-24
📊 サブカテゴリ別スコア
| カテゴリ | サブカテゴリ | スコア | サンプル | 最低/最高 |
|---|---|---|---|---|
| agent_coding | bugfix | 100.0 | 1 | 100 / 100 |
| chat | sql_generation | 100.0 | 1 | 100 / 100 |
| chat | hallucination | 99.0 | 1 | 99 / 99 |
| chat | tone_control | 98.0 | 1 | 98 / 98 |
| chat | structured_output | 97.5 | 2 | 95 / 100 |
| chat | business_writing | 96.0 | 3 | 95 / 97 |
| chat | creativity | 95.7 | 3 | 95 / 97 |
| chat | fluency | 95.0 | 2 | 95 / 95 |
| chat | safety | 95.0 | 1 | 95 / 95 |
| chat | style_transfer | 95.0 | 1 | 95 / 95 |
| agent_coding | long_horizon | 93.0 | 1 | 93 / 93 |
| chat | long_context | 93.0 | 1 | 93 / 93 |
| chat | translation | 92.5 | 2 | 90 / 95 |
| agent_coding | test_generation | 85.0 | 1 | 85 / 85 |
| agent_coding | refactor | 65.0 | 1 | 65 / 65 |
| chat | instruction_following | 60.0 | 1 | 60 / 60 |
| chat | reasoning | 50.0 | 2 | 0 / 100 |
| agent_coding | tool_use | 0.0 | 1 | 0 / 0 |
⚠️ 疑わしいラン (4件)
judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン
| 実行日時 | タスク | スコア | per_call | flag | Δ |
|---|---|---|---|---|---|
| 2026-06-24 15:22 | agent-refactor-v1 | 65.0 | [65,65,0,85] | ⚠️ | 20 |
| 2026-06-24 15:07 | chat-translation-en-ja-v1 | 98.0 | [100,95,98,0] | ⚠️ | 98 |
| 2026-06-24 14:53 | chat-jp-math-v1 | 82.0 | [85,0,82,0] | ⚠️ | 82 |
| 2026-06-24 14:48 | chat-jp-instruction-v1 | 60.0 | [75,60,55,0] | ⚠️ | 60 |
📜 最近のラン履歴
| 実行日時 | タスク | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 15:27 | agent-toolcall-v1 | 0.0 | $0.0004 | 0.0s | |
| 2026-06-24 15:27 | agent-toolcall-v1 | 0.0 | $0.0004 | 0.0s | |
| 2026-06-24 15:25 | agent-testgen-v1 | 85.0 | $0.0002 | 0.0s | |
| 2026-06-24 15:25 | agent-testgen-v1 | 95.0 | $0.0002 | 0.0s | |
| 2026-06-24 15:22 | agent-refactor-v1 | 65.0 | $0.0000 | 0.0s | |
| 2026-06-24 15:22 | agent-refactor-v1 | 81.0 | $0.0000 | 0.0s | |
| 2026-06-24 15:18 | agent-multi-step-v1 | 93.0 | $0.0004 | 0.0s | |
| 2026-06-24 15:18 | agent-multi-step-v1 | 95.0 | $0.0004 | 0.0s | |
| 2026-06-24 15:14 | agent-bugfix-v1 | 100.0 | $0.0001 | 0.0s | |
| 2026-06-24 15:14 | agent-bugfix-v1 | 96.0 | $0.0001 | 0.0s |