Google: Gemma 4 31B (free)

google/gemma-4-31b-it:free

プロバイダ: google · コンテキスト: unknown tokens

総合スコア

89.6

21 ラン

入力単価

$0.00 / M tokens

出力単価

$0.00 / M tokens

累計コスト

$0.0000

チャット性能ランキング: 3位 / 4モデル中 · エージェント: 2位

🛡 信頼性 & 速度

実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事

信頼性グレード

成功率 100.0%

速度

⏱️ 中速

平均 -

失敗

0 / 42

timeout 0 / rate_limit 0

judge フラグ率

9.5%

judge不一致検出

📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 10.8 (低いほど安定) 📅 最終検証: 2026-06-24

📊 サブカテゴリ別スコア

カテゴリ	サブカテゴリ	スコア	サンプル	最低/最高
chat	tone_control	98.0	1	98 / 98
chat	sql_generation	96.0	1	96 / 96
chat	style_transfer	96.0	1	96 / 96
agent_coding	bugfix	95.0	1	95 / 95
agent_coding	long_horizon	95.0	1	95 / 95
agent_coding	test_generation	95.0	1	95 / 95
chat	business_writing	95.0	1	95 / 95
chat	fluency	95.0	1	95 / 95
chat	safety	95.0	1	95 / 95
chat	structured_output	95.0	1	95 / 95
chat	translation	95.0	2	95 / 95
agent_coding	refactor	93.0	1	93 / 93
chat	long_context	93.0	1	93 / 93
chat	reasoning	92.5	2	85 / 100
chat	creativity	92.0	1	92 / 92
chat	multi_turn	92.0	1	92 / 92
agent_coding	tool_use	75.0	1	75 / 75
chat	hallucination	75.0	1	75 / 75
chat	instruction_following	40.0	1	40 / 40

⚠️ 疑わしいラン (4件)

judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン

実行日時	タスク	スコア	per_call	flag	Δ
2026-06-24 12:13	agent-multi-step-v1	95.0	[92,95,97,78]	⚠️	17
2026-06-24 11:47	chat-jp-instruction-v1	60.0	[75,40,60,0]	⚠️	60
2026-06-24 11:46	chat-jp-hallucination-v1	75.0	[82,75,75,0]	⚠️	75
2026-06-24 11:39	chat-jp-creative-v1	95.0	[62,95,95,0]	⚠️	95

📜 最近のラン履歴

実行日時	タスク	スコア	コスト	時間	判定
2026-06-24 12:19	agent-toolcall-v1	75.0	$0.0000	0.0s	Model output correctly uses 2 tool calls in valid JSON and matches expected tool names and most arguments. However, date field uses 'tomorrow' instead of a concrete date, and body is a generic string rather than the actual weather result, reducing completeness.
2026-06-24 12:19	agent-toolcall-v1	85.0	$0.0000	0.0s	ツール選択と引数の正確性は概ね良好ですが、期待出力では日付が「<明日>」とプレースホルダー形式であるのに対し、モデル出力では「tomorrow」と英語表記になっている点、またbodyが具体的な天気結果ではなく抽象的な記述になっている点で軽微な不一致があります。全体として指示には従っており、JSON形式も妥当です。
2026-06-24 12:17	agent-testgen-v1	95.0	$0.0000	0.0s	FizzBuzz関数に対して、通常ケース・境界値（0や負数）・型エラーケースをパラメトリックに網羅しており、評価基準の「網羅性」「境界値」「独立性」を概ね満たしている。ただし、テスト対象モジュールが 'your_module' のままであり、そのままでは実行できない点が僅かに helpfulness を下げる。
2026-06-24 12:17	agent-testgen-v1	95.0	$0.0000	0.0s	テストコードはpytestのparametrizeを用いており、通常ケース、境界値（0や負の数）、型エラーを網羅的にカバーしています。日本語の説明も自然で、実装へのアドバイスも含め有用です。ただし、浮動小数点数に対する型エラーの期待がやや厳格である点で減点しました。
2026-06-24 12:15	agent-refactor-v1	93.0	$0.0000	0.0s	コードは適切にリファクタリングされており、動作の保存、可読性、構造化の基準を満たしている。関数の分割と明確な命名により可読性が向上しており、バルク割引のロジックも明確に分離されている。安全性に問題はなく、全体として良好な出力である。
2026-06-24 12:15	agent-refactor-v1	95.0	$0.0000	0.0s	リファクタリングにより関数が分割され、可読性と構造化が向上している。元の動作（数量が0以下の場合の割引計算、合計が10000超の場合の一括割引）も保持されている。ただし、変数名やコメントがなく、割引ロジックの意図がやや不明瞭な点が軽微な改善点。
2026-06-24 12:13	agent-multi-step-v1	95.0	$0.0000	0.0s	モデル出力は、TODO CLIツールの完全な実装、テストコード、設計ポイントを提供しており、高い完全性・動作可能性・コード品質を備えています。日本語も自然で、指示に十分に従っており、不適切な内容もありません。テストコードが含まれている点も評価基準を満たします。
2026-06-24 12:13	agent-multi-step-v1	95.0	$0.0000	0.0s	このモデル出力は、完全な動作可能なTODO CLIツールを提供しており、argparseを用いたサブコマンド実装、TodoManagerクラスによるデータ管理のカプセル化、pytestを用いたテストコードの同梱、設計上のポイントの説明など、評価基準の完全性、動作可能性、テスト、コード品質のすべてを高い水準で満たしています。コードも読みやすく、日本語の説明も自然で流暢です。わずかに改善点として、エラーハンドリングが最小限である点（例：重複IDの考慮）が挙げられますが、タスクの要件に対して非常に優れた回答です。
2026-06-24 12:09	agent-bugfix-v1	95.0	$0.0000	0.0s	バグ（ゼロ除算）を正確に特定し、最小限の修正（空リストチェック）を加えている。説明は日本語として明瞭で、原因と修正内容が簡潔にまとめられており、すべての評価基準を満たしている。
2026-06-24 12:09	agent-bugfix-v1	95.0	$0.0000	0.0s	The model correctly identifies the ZeroDivisionError bug, provides a minimal fix by adding a check for empty list, and explains the cause and solution clearly in natural Japanese. The output is safe and helpful.