Google: Gemma 4 31B (free)

google/gemma-4-31b-it:free

プロバイダ: google · コンテキスト: unknown tokens

総合スコア
89.6
21 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 3位 / 4モデル中 · エージェント: 2位

🛡 信頼性 & 速度

実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事

信頼性グレード
A
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 42
timeout 0 / rate_limit 0
judge フラグ率
9.5%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 10.8 (低いほど安定) 📅 最終検証: 2026-06-24

📊 サブカテゴリ別スコア

カテゴリ サブカテゴリ スコア サンプル 最低/最高
chat tone_control 98.0 1 98 / 98
chat sql_generation 96.0 1 96 / 96
chat style_transfer 96.0 1 96 / 96
agent_coding bugfix 95.0 1 95 / 95
agent_coding long_horizon 95.0 1 95 / 95
agent_coding test_generation 95.0 1 95 / 95
chat business_writing 95.0 1 95 / 95
chat fluency 95.0 1 95 / 95
chat safety 95.0 1 95 / 95
chat structured_output 95.0 1 95 / 95
chat translation 95.0 2 95 / 95
agent_coding refactor 93.0 1 93 / 93
chat long_context 93.0 1 93 / 93
chat reasoning 92.5 2 85 / 100
chat creativity 92.0 1 92 / 92
chat multi_turn 92.0 1 92 / 92
agent_coding tool_use 75.0 1 75 / 75
chat hallucination 75.0 1 75 / 75
chat instruction_following 40.0 1 40 / 40

⚠️ 疑わしいラン (4件)

judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン

実行日時 タスク スコア per_call flag Δ
2026-06-24 12:13 agent-multi-step-v1 95.0 [92,95,97,78] ⚠️ 17
2026-06-24 11:47 chat-jp-instruction-v1 60.0 [75,40,60,0] ⚠️ 60
2026-06-24 11:46 chat-jp-hallucination-v1 75.0 [82,75,75,0] ⚠️ 75
2026-06-24 11:39 chat-jp-creative-v1 95.0 [62,95,95,0] ⚠️ 95

📜 最近のラン履歴

実行日時 タスク スコア コスト 時間 判定
2026-06-24 12:19 agent-toolcall-v1 75.0 $0.0000 0.0s Model output correctly uses 2 tool calls in valid JSON and matches expected tool names and most arguments. However, date field uses 'tomorrow' instead of a concrete date, and body is a generic string rather than the actual weather result, reducing completeness.
2026-06-24 12:19 agent-toolcall-v1 85.0 $0.0000 0.0s ツール選択と引数の正確性は概ね良好ですが、期待出力では日付が「<明日>」とプレースホルダー形式であるのに対し、モデル出力では「tomorrow」と英語表記になっている点、またbodyが具体的な天気結果ではなく抽象的な記述になっている点で軽微な不一致があります。全体として指示には従っており、JSON形式も妥当です。
2026-06-24 12:17 agent-testgen-v1 95.0 $0.0000 0.0s FizzBuzz関数に対して、通常ケース・境界値(0や負数)・型エラーケースをパラメトリックに網羅しており、評価基準の「網羅性」「境界値」「独立性」を概ね満たしている。ただし、テスト対象モジュールが 'your_module' のままであり、そのままでは実行できない点が僅かに helpfulness を下げる。
2026-06-24 12:17 agent-testgen-v1 95.0 $0.0000 0.0s テストコードはpytestのparametrizeを用いており、通常ケース、境界値(0や負の数)、型エラーを網羅的にカバーしています。日本語の説明も自然で、実装へのアドバイスも含め有用です。ただし、浮動小数点数に対する型エラーの期待がやや厳格である点で減点しました。
2026-06-24 12:15 agent-refactor-v1 93.0 $0.0000 0.0s コードは適切にリファクタリングされており、動作の保存、可読性、構造化の基準を満たしている。関数の分割と明確な命名により可読性が向上しており、バルク割引のロジックも明確に分離されている。安全性に問題はなく、全体として良好な出力である。
2026-06-24 12:15 agent-refactor-v1 95.0 $0.0000 0.0s リファクタリングにより関数が分割され、可読性と構造化が向上している。元の動作(数量が0以下の場合の割引計算、合計が10000超の場合の一括割引)も保持されている。ただし、変数名やコメントがなく、割引ロジックの意図がやや不明瞭な点が軽微な改善点。
2026-06-24 12:13 agent-multi-step-v1 95.0 $0.0000 0.0s モデル出力は、TODO CLIツールの完全な実装、テストコード、設計ポイントを提供しており、高い完全性・動作可能性・コード品質を備えています。日本語も自然で、指示に十分に従っており、不適切な内容もありません。テストコードが含まれている点も評価基準を満たします。
2026-06-24 12:13 agent-multi-step-v1 95.0 $0.0000 0.0s このモデル出力は、完全な動作可能なTODO CLIツールを提供しており、argparseを用いたサブコマンド実装、TodoManagerクラスによるデータ管理のカプセル化、pytestを用いたテストコードの同梱、設計上のポイントの説明など、評価基準の完全性、動作可能性、テスト、コード品質のすべてを高い水準で満たしています。コードも読みやすく、日本語の説明も自然で流暢です。わずかに改善点として、エラーハンドリングが最小限である点(例:重複IDの考慮)が挙げられますが、タスクの要件に対して非常に優れた回答です。
2026-06-24 12:09 agent-bugfix-v1 95.0 $0.0000 0.0s バグ(ゼロ除算)を正確に特定し、最小限の修正(空リストチェック)を加えている。説明は日本語として明瞭で、原因と修正内容が簡潔にまとめられており、すべての評価基準を満たしている。
2026-06-24 12:09 agent-bugfix-v1 95.0 $0.0000 0.0s The model correctly identifies the ZeroDivisionError bug, provides a minimal fix by adding a check for empty list, and explains the cause and solution clearly in natural Japanese. The output is safe and helpful.