掘り出し物LLMを、
数値で見つける。
OpenRouter上のマイナー寄りモデルを、日本語タスクで継続ベンチマーク。 スコア・コスト・速度を可視化して、本命と掘り出し物をデータで比較できます。
検証済みモデル
5
ベンチタスク
21
実行ラン
174
累計コスト
$0.01
📅 最終更新: 2026-06-24 (DeepSeek: DeepSeek V4 Flash) · judge不一致 10%
🏆 性能ランキング
日本語チャット性能とエージェントコーディング性能を分けて表示
💬 チャット
| # | モデル | スコア | ラン数 |
|---|---|---|---|
| 1 | OpenAI: gpt-oss-120b (free) | 92.1 | 16 |
| 2 | DeepSeek: DeepSeek V4 Flash | 89.7 | 21 |
| 3 | Google: Gemma 4 31B (free) | 89.3 | 16 |
| 4 | Owl Alpha | 87.6 | 16 |
🛠 エージェント
| # | モデル | スコア | ラン数 |
|---|---|---|---|
| 1 | OpenAI: gpt-oss-120b (free) | 93.0 | 5 |
| 2 | Google: Gemma 4 31B (free) | 90.6 | 5 |
| 3 | Owl Alpha | 87.0 | 5 |
| 4 | DeepSeek: DeepSeek V4 Flash | 68.6 | 5 |
🛡 信頼性 & 速度ランキング
スコアだけでなく「安定して動くか・速いか」で並べた実用観点のランキング
| # | モデル | 信頼性 | 成功率 | 速度 | 平均 レスポンス | p95 | ラン数 |
|---|---|---|---|---|---|---|---|
| 1 | Owl Alpha | A | 100% | ⏱️ 中速 | - | - | 42 |
| 2 | Google: Gemma 4 31B (free) | A | 100% | ⏱️ 中速 | - | - | 42 |
| 3 | DeepSeek: DeepSeek V4 Flash | A | 100% | ⏱️ 中速 | - | - | 52 |
| 4 | OpenAI: gpt-oss-120b (free) | B | 100% | ⏱️ 中速 | - | - | 38 |
💰 コストパフォ散布図
横軸: 累計コスト($) / 縦軸: スコア。右上のモデルが「安くて高性能」
💎 コスト効率ランキング (スコア/$)
同じ1ドルで何点取れるか。無料モデルは無限大扱い
| # | モデル | 効率 (score/$) | スコア | 累計コスト | ラン数 |
|---|---|---|---|---|---|
| 1 | OpenAI: gpt-oss-120b (free) | ∞ (無料) | 92.1 | $0.0000 | 16 |
| 2 | Google: Gemma 4 31B (free) | ∞ (無料) | 89.3 | $0.0000 | 16 |
| 3 | Owl Alpha | ∞ (無料) | 87.6 | $0.0000 | 16 |
| 4 | DeepSeek: DeepSeek V4 Flash | 31477.9 | 89.7 | $0.0029 | 21 |
📝 最新の検証記事
note / X での発信は /publications にまとめてあります。