Google: Gemma 4 31B (free)
google/gemma-4-31b-it:free プロバイダ: google · コンテキスト: unknown tokens
総合スコア
89.6
21 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 3位 / 4モデル中 · エージェント: 2位
🛡 信頼性 & 速度
実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事
信頼性グレード
A
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 42
timeout 0 / rate_limit 0
judge フラグ率
9.5%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 10.8 (低いほど安定) 📅 最終検証: 2026-06-24
📊 サブカテゴリ別スコア
| カテゴリ | サブカテゴリ | スコア | サンプル | 最低/最高 |
|---|---|---|---|---|
| chat | tone_control | 98.0 | 1 | 98 / 98 |
| chat | sql_generation | 96.0 | 1 | 96 / 96 |
| chat | style_transfer | 96.0 | 1 | 96 / 96 |
| agent_coding | bugfix | 95.0 | 1 | 95 / 95 |
| agent_coding | long_horizon | 95.0 | 1 | 95 / 95 |
| agent_coding | test_generation | 95.0 | 1 | 95 / 95 |
| chat | business_writing | 95.0 | 1 | 95 / 95 |
| chat | fluency | 95.0 | 1 | 95 / 95 |
| chat | safety | 95.0 | 1 | 95 / 95 |
| chat | structured_output | 95.0 | 1 | 95 / 95 |
| chat | translation | 95.0 | 2 | 95 / 95 |
| agent_coding | refactor | 93.0 | 1 | 93 / 93 |
| chat | long_context | 93.0 | 1 | 93 / 93 |
| chat | reasoning | 92.5 | 2 | 85 / 100 |
| chat | creativity | 92.0 | 1 | 92 / 92 |
| chat | multi_turn | 92.0 | 1 | 92 / 92 |
| agent_coding | tool_use | 75.0 | 1 | 75 / 75 |
| chat | hallucination | 75.0 | 1 | 75 / 75 |
| chat | instruction_following | 40.0 | 1 | 40 / 40 |
⚠️ 疑わしいラン (4件)
judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン
| 実行日時 | タスク | スコア | per_call | flag | Δ |
|---|---|---|---|---|---|
| 2026-06-24 12:13 | agent-multi-step-v1 | 95.0 | [92,95,97,78] | ⚠️ | 17 |
| 2026-06-24 11:47 | chat-jp-instruction-v1 | 60.0 | [75,40,60,0] | ⚠️ | 60 |
| 2026-06-24 11:46 | chat-jp-hallucination-v1 | 75.0 | [82,75,75,0] | ⚠️ | 75 |
| 2026-06-24 11:39 | chat-jp-creative-v1 | 95.0 | [62,95,95,0] | ⚠️ | 95 |
📜 最近のラン履歴
| 実行日時 | タスク | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 12:19 | agent-toolcall-v1 | 75.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:19 | agent-toolcall-v1 | 85.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:17 | agent-testgen-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:17 | agent-testgen-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:15 | agent-refactor-v1 | 93.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:15 | agent-refactor-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:13 | agent-multi-step-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:13 | agent-multi-step-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:09 | agent-bugfix-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:09 | agent-bugfix-v1 | 95.0 | $0.0000 | 0.0s |