掘り出し物LLMを、
数値で見つける。

OpenRouter上のマイナー寄りモデルを、日本語タスクで継続ベンチマーク。スコア・コスト・速度を可視化して、本命と掘り出し物をデータで比較できます。

検証済みモデル

ベンチタスク

実行ラン

174

累計コスト

$0.01

📅 最終更新: 2026-06-24 (DeepSeek: DeepSeek V4 Flash) · judge不一致 10%

🏆 性能ランキング

日本語チャット性能とエージェントコーディング性能を分けて表示

スコアだけでなく「安定して動くか・速いか」で並べた実用観点のランキング

#	モデル	信頼性	成功率	速度	平均レスポンス	p95	ラン数
1	Owl Alpha	A	100%	⏱️ 中速	-	-	42
2	Google: Gemma 4 31B (free)	A	100%	⏱️ 中速	-	-	42
3	DeepSeek: DeepSeek V4 Flash	A	100%	⏱️ 中速	-	-	52
4	OpenAI: gpt-oss-120b (free)	B	100%	⏱️ 中速	-	-	38

横軸: 累計コスト($) / 縦軸: スコア。右上のモデルが「安くて高性能」

同じ1ドルで何点取れるか。無料モデルは無限大扱い

#	モデル	効率 (score/$)	スコア	累計コスト	ラン数
1	OpenAI: gpt-oss-120b (free)	∞ (無料)	92.1	$0.0000	16
2	Google: Gemma 4 31B (free)	∞ (無料)	89.3	$0.0000	16
3	Owl Alpha	∞ (無料)	87.6	$0.0000	16
4	DeepSeek: DeepSeek V4 Flash	31477.9	89.7	$0.0029	21

note / X での発信は /publications にまとめてあります。