OpenAI: gpt-oss-120b (free)

openai/gpt-oss-120b:free

プロバイダ: openai · コンテキスト: unknown tokens

総合スコア
92.4
21 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 1位 / 4モデル中 · エージェント: 1位

🛡 信頼性 & 速度

実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事

信頼性グレード
B
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 38
timeout 0 / rate_limit 0
judge フラグ率
15.8%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 8.3 (低いほど安定) 📅 最終検証: 2026-06-24

📊 サブカテゴリ別スコア

カテゴリ サブカテゴリ スコア サンプル 最低/最高
chat structured_output 100.0 1 100 / 100
chat reasoning 97.5 2 95 / 100
agent_coding bugfix 95.0 1 95 / 95
agent_coding long_horizon 95.0 1 95 / 95
agent_coding test_generation 95.0 1 95 / 95
agent_coding tool_use 95.0 1 95 / 95
chat business_writing 95.0 1 95 / 95
chat fluency 95.0 1 95 / 95
chat multi_turn 95.0 1 95 / 95
chat safety 95.0 1 95 / 95
chat sql_generation 95.0 1 95 / 95
chat tone_control 95.0 1 95 / 95
chat long_context 94.0 1 94 / 94
chat translation 93.5 2 92 / 95
chat style_transfer 90.0 1 90 / 90
agent_coding refactor 85.0 1 85 / 85
chat creativity 85.0 1 85 / 85
chat hallucination 85.0 1 85 / 85
chat instruction_following 75.0 1 75 / 75

⚠️ 疑わしいラン (6件)

judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン

実行日時 タスク スコア per_call flag Δ
2026-06-24 09:07 agent-refactor-v1 85.0 [60,85,95,0] ⚠️ 85
2026-06-24 08:51 chat-translation-ja-en-v1 75.0 [0,75,75,95] ⚠️ 20
2026-06-24 08:48 chat-translation-en-ja-v1 70.0 [75,30,70,95] ⚠️ 25
2026-06-24 08:26 chat-jp-instruction-v1 75.0 [70,75,75,20] ⚠️ 55
2026-06-24 08:26 chat-jp-instruction-v1 70.0 [65,70,72,0] ⚠️ 70
2026-06-24 08:22 chat-jp-hallucination-v1 85.0 [82,85,88,0] ⚠️ 85

📜 最近のラン履歴

実行日時 タスク スコア コスト 時間 判定
2026-06-24 09:15 agent-toolcall-v1 95.0 $0.0000 0.0s モデル出力は有効なJSONで、2回のツール呼び出しを正しい順序で行っています。ツール選択と引数の構造は期待通りですが、日付と本文のプレースホルダーが英語表記("tomorrow"、"{{weather_result}}")であり、日本語タスクの期待出力("<明日>"、"<天気の結果>")と一致しない点が軽微な減点要素です。
2026-06-24 09:13 agent-testgen-v1 95.0 $0.0000 0.0s テストスイートは網羅性、境界値、独立性の全ての基準をほぼ満たしており、通常ケース、境界値、型エラー、追加テストを適切にカバーしています。日本語の説明も自然で指示に従っており、安全性にも問題ありません。ただし、型エラーケースで浮動小数点数が実際にTypeErrorを発生させるとは限らない点が軽微な問題です。
2026-06-24 09:07 agent-refactor-v1 85.0 $0.0000 0.0s コードはリファクタリングにより可読性と構造化が向上しており、動作も保存されています。ただし、元のコードが不明なため完全な評価は難しく、またコメントがない点がやや惜しいです。
2026-06-24 09:05 agent-multi-step-v1 95.0 $0.0000 0.0s モデル出力は、完全なTODO CLIツールとそのテストコードを提供しており、指示された機能をすべて実装しています。コードは動作可能で、テストも含まれており、コード品質も高いです。ただし、テストコードで動的インポートを使用している点がやや複雑で、よりシンプルな方法が可能かもしれません。
2026-06-24 08:56 agent-bugfix-v1 95.0 $0.0000 0.0s バグの原因(0除算)を正確に特定し、最小限の修正(空リストチェック)で解決している。説明は表形式で明確であり、可読性向上の提案も合理的。全ての評価基準を満たしており、ほぼ完璧な回答である。
2026-06-24 08:56 agent-bugfix-v1 95.0 $0.0000 0.0s バグの特定(ZeroDivisionError)と最小限の修正(空リストチェック)が的確に行われ、説明も表形式で明確に整理されている。コードも自然で安全であり、ほぼ完璧な回答である。
2026-06-24 08:51 chat-translation-ja-en-v1 92.0 $0.0000 0.0s 翻訳は原文の内容を正確に伝えており、専門用語(tokenized, Transformer model, softmax function)も適切に使用されています。英文として自然で流暢ですが、原文が日本語であることを考慮すると、やや直訳的で文体の統一に改善の余地があります。
2026-06-24 08:51 chat-translation-ja-en-v1 75.0 $0.0000 0.0s The output is a fluent and technically accurate English description of an ML pipeline, but the source Japanese text is missing, so translation accuracy cannot be verified. The English is natural, technical terms are used appropriately, and the style is consistent.
2026-06-24 08:48 chat-translation-en-ja-v1 95.0 $0.0000 0.0s 敬語の正確さ、ニュアンスの保持、ビジネスメールのマナー、読みやすさのすべての観点で非常に高い水準にある。延期の案内と謝罪、アップデート内容の説明がバランスよく構成され、日本語としても自然で流暢。署名の英語表記はビジネスメールとして許容範囲内。
2026-06-24 08:48 chat-translation-en-ja-v1 70.0 $0.0000 0.0s メール本文の敬語と内容は適切でビジネス文書として機能しているが、宛名(Dear Ms. Tanaka)と結び(Best regards, John Smith)が英語のままであり、翻訳タスクとして完全ではない。このため、全体的な完成度と流暢さがやや損なわれている。