OpenAI: gpt-oss-120b (free)
openai/gpt-oss-120b:free プロバイダ: openai · コンテキスト: unknown tokens
総合スコア
92.4
21 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 1位 / 4モデル中 · エージェント: 1位
🛡 信頼性 & 速度
実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事
信頼性グレード
B
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 38
timeout 0 / rate_limit 0
judge フラグ率
15.8%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 8.3 (低いほど安定) 📅 最終検証: 2026-06-24
📊 サブカテゴリ別スコア
| カテゴリ | サブカテゴリ | スコア | サンプル | 最低/最高 |
|---|---|---|---|---|
| chat | structured_output | 100.0 | 1 | 100 / 100 |
| chat | reasoning | 97.5 | 2 | 95 / 100 |
| agent_coding | bugfix | 95.0 | 1 | 95 / 95 |
| agent_coding | long_horizon | 95.0 | 1 | 95 / 95 |
| agent_coding | test_generation | 95.0 | 1 | 95 / 95 |
| agent_coding | tool_use | 95.0 | 1 | 95 / 95 |
| chat | business_writing | 95.0 | 1 | 95 / 95 |
| chat | fluency | 95.0 | 1 | 95 / 95 |
| chat | multi_turn | 95.0 | 1 | 95 / 95 |
| chat | safety | 95.0 | 1 | 95 / 95 |
| chat | sql_generation | 95.0 | 1 | 95 / 95 |
| chat | tone_control | 95.0 | 1 | 95 / 95 |
| chat | long_context | 94.0 | 1 | 94 / 94 |
| chat | translation | 93.5 | 2 | 92 / 95 |
| chat | style_transfer | 90.0 | 1 | 90 / 90 |
| agent_coding | refactor | 85.0 | 1 | 85 / 85 |
| chat | creativity | 85.0 | 1 | 85 / 85 |
| chat | hallucination | 85.0 | 1 | 85 / 85 |
| chat | instruction_following | 75.0 | 1 | 75 / 75 |
⚠️ 疑わしいラン (6件)
judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン
| 実行日時 | タスク | スコア | per_call | flag | Δ |
|---|---|---|---|---|---|
| 2026-06-24 09:07 | agent-refactor-v1 | 85.0 | [60,85,95,0] | ⚠️ | 85 |
| 2026-06-24 08:51 | chat-translation-ja-en-v1 | 75.0 | [0,75,75,95] | ⚠️ | 20 |
| 2026-06-24 08:48 | chat-translation-en-ja-v1 | 70.0 | [75,30,70,95] | ⚠️ | 25 |
| 2026-06-24 08:26 | chat-jp-instruction-v1 | 75.0 | [70,75,75,20] | ⚠️ | 55 |
| 2026-06-24 08:26 | chat-jp-instruction-v1 | 70.0 | [65,70,72,0] | ⚠️ | 70 |
| 2026-06-24 08:22 | chat-jp-hallucination-v1 | 85.0 | [82,85,88,0] | ⚠️ | 85 |
📜 最近のラン履歴
| 実行日時 | タスク | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 09:15 | agent-toolcall-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:13 | agent-testgen-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:07 | agent-refactor-v1 | 85.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:05 | agent-multi-step-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:56 | agent-bugfix-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:56 | agent-bugfix-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:51 | chat-translation-ja-en-v1 | 92.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:51 | chat-translation-ja-en-v1 | 75.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:48 | chat-translation-en-ja-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:48 | chat-translation-en-ja-v1 | 70.0 | $0.0000 | 0.0s |