Owl Alpha
openrouter/owl-alpha プロバイダ: openrouter · コンテキスト: unknown tokens
総合スコア
87.4
21 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 4位 / 4モデル中 · エージェント: 3位
🛡 信頼性 & 速度
実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事
信頼性グレード
A
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 42
timeout 0 / rate_limit 0
judge フラグ率
9.5%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 12.6 (低いほど安定) 📅 最終検証: 2026-06-24
📊 サブカテゴリ別スコア
| カテゴリ | サブカテゴリ | スコア | サンプル | 最低/最高 |
|---|---|---|---|---|
| chat | creativity | 98.0 | 1 | 98 / 98 |
| agent_coding | bugfix | 95.0 | 1 | 95 / 95 |
| agent_coding | long_horizon | 95.0 | 1 | 95 / 95 |
| chat | fluency | 95.0 | 1 | 95 / 95 |
| chat | long_context | 95.0 | 1 | 95 / 95 |
| chat | safety | 95.0 | 1 | 95 / 95 |
| chat | sql_generation | 95.0 | 1 | 95 / 95 |
| chat | style_transfer | 95.0 | 1 | 95 / 95 |
| chat | tone_control | 95.0 | 1 | 95 / 95 |
| chat | reasoning | 92.5 | 2 | 85 / 100 |
| chat | hallucination | 92.0 | 1 | 92 / 92 |
| chat | structured_output | 90.0 | 1 | 90 / 90 |
| chat | translation | 89.0 | 2 | 85 / 93 |
| agent_coding | refactor | 85.0 | 1 | 85 / 85 |
| agent_coding | test_generation | 85.0 | 1 | 85 / 85 |
| chat | business_writing | 85.0 | 1 | 85 / 85 |
| agent_coding | tool_use | 75.0 | 1 | 75 / 75 |
| chat | instruction_following | 65.0 | 1 | 65 / 65 |
| chat | multi_turn | 45.0 | 1 | 45 / 45 |
⚠️ 疑わしいラン (4件)
judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン
| 実行日時 | タスク | スコア | per_call | flag | Δ |
|---|---|---|---|---|---|
| 2026-06-24 10:09 | agent-refactor-v1 | 65.0 | [0,65,65,95] | ⚠️ | 30 |
| 2026-06-24 10:07 | agent-multi-step-v1 | 95.0 | [95,95,95,0] | ⚠️ | 95 |
| 2026-06-24 09:58 | chat-translation-en-ja-v1 | 85.0 | [95,75,85,0] | ⚠️ | 85 |
| 2026-06-24 09:35 | chat-jp-instruction-v1 | 65.0 | [65,60,65,0] | ⚠️ | 65 |
📜 最近のラン履歴
| 実行日時 | タスク | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 10:14 | agent-toolcall-v1 | 75.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:14 | agent-toolcall-v1 | 60.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:12 | agent-testgen-v1 | 85.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:12 | agent-testgen-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:09 | agent-refactor-v1 | 85.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:09 | agent-refactor-v1 | 65.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:07 | agent-multi-step-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:07 | agent-multi-step-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:04 | agent-bugfix-v1 | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:04 | agent-bugfix-v1 | 95.0 | $0.0000 | 0.0s |