掘り出し物LLMを、
数値で見つける。

OpenRouter上のマイナー寄りモデルを、日本語タスクで継続ベンチマーク。 スコア・コスト・速度を可視化して、本命と掘り出し物をデータで比較できます。

検証済みモデル
5
ベンチタスク
21
実行ラン
174
累計コスト
$0.01

📅 最終更新: 2026-06-24 (DeepSeek: DeepSeek V4 Flash) · judge不一致 10%

🏆 性能ランキング

日本語チャット性能とエージェントコーディング性能を分けて表示

💬 チャット

# モデル スコア ラン数
1 OpenAI: gpt-oss-120b (free) 92.1 16
2 DeepSeek: DeepSeek V4 Flash 89.7 21
3 Google: Gemma 4 31B (free) 89.3 16
4 Owl Alpha 87.6 16

🛠 エージェント

# モデル スコア ラン数
1 OpenAI: gpt-oss-120b (free) 93.0 5
2 Google: Gemma 4 31B (free) 90.6 5
3 Owl Alpha 87.0 5
4 DeepSeek: DeepSeek V4 Flash 68.6 5

🛡 信頼性 & 速度ランキング

スコアだけでなく「安定して動くか・速いか」で並べた実用観点のランキング

# モデル 信頼性 成功率 速度 平均
レスポンス
p95 ラン数
1 Owl Alpha A 100% ⏱️ 中速 - - 42
2 Google: Gemma 4 31B (free) A 100% ⏱️ 中速 - - 42
3 DeepSeek: DeepSeek V4 Flash A 100% ⏱️ 中速 - - 52
4 OpenAI: gpt-oss-120b (free) B 100% ⏱️ 中速 - - 38

💰 コストパフォ散布図

横軸: 累計コスト($) / 縦軸: スコア。右上のモデルが「安くて高性能」

💎 コスト効率ランキング (スコア/$)

同じ1ドルで何点取れるか。無料モデルは無限大扱い

# モデル 効率 (score/$) スコア 累計コスト ラン数
1 OpenAI: gpt-oss-120b (free) ∞ (無料) 92.1 $0.0000 16
2 Google: Gemma 4 31B (free) ∞ (無料) 89.3 $0.0000 16
3 Owl Alpha ∞ (無料) 87.6 $0.0000 16
4 DeepSeek: DeepSeek V4 Flash 31477.9 89.7 $0.0029 21

📝 最新の検証記事

note / X での発信は /publications にまとめてあります。