Owl Alpha

openrouter/owl-alpha

プロバイダ: openrouter · コンテキスト: unknown tokens

総合スコア
87.4
21 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 4位 / 4モデル中 · エージェント: 3位

🛡 信頼性 & 速度

実運用での参考値。スコアだけでなく、安定して動くか・速いかも大事

信頼性グレード
A
成功率 100.0%
速度
⏱️ 中速
平均 -
失敗
0 / 42
timeout 0 / rate_limit 0
judge フラグ率
9.5%
judge不一致検出
📊 median: - 📈 p95: - 📐 スコア安定性 (σ): 12.6 (低いほど安定) 📅 最終検証: 2026-06-24

📊 サブカテゴリ別スコア

カテゴリ サブカテゴリ スコア サンプル 最低/最高
chat creativity 98.0 1 98 / 98
agent_coding bugfix 95.0 1 95 / 95
agent_coding long_horizon 95.0 1 95 / 95
chat fluency 95.0 1 95 / 95
chat long_context 95.0 1 95 / 95
chat safety 95.0 1 95 / 95
chat sql_generation 95.0 1 95 / 95
chat style_transfer 95.0 1 95 / 95
chat tone_control 95.0 1 95 / 95
chat reasoning 92.5 2 85 / 100
chat hallucination 92.0 1 92 / 92
chat structured_output 90.0 1 90 / 90
chat translation 89.0 2 85 / 93
agent_coding refactor 85.0 1 85 / 85
agent_coding test_generation 85.0 1 85 / 85
chat business_writing 85.0 1 85 / 85
agent_coding tool_use 75.0 1 75 / 75
chat instruction_following 65.0 1 65 / 65
chat multi_turn 45.0 1 45 / 45

⚠️ 疑わしいラン (4件)

judgeが空応答した・クロスチェックで不一致だった等、信頼性の低いラン

実行日時 タスク スコア per_call flag Δ
2026-06-24 10:09 agent-refactor-v1 65.0 [0,65,65,95] ⚠️ 30
2026-06-24 10:07 agent-multi-step-v1 95.0 [95,95,95,0] ⚠️ 95
2026-06-24 09:58 chat-translation-en-ja-v1 85.0 [95,75,85,0] ⚠️ 85
2026-06-24 09:35 chat-jp-instruction-v1 65.0 [65,60,65,0] ⚠️ 65

📜 最近のラン履歴

実行日時 タスク スコア コスト 時間 判定
2026-06-24 10:14 agent-toolcall-v1 75.0 $0.0000 0.0s ツール選択と順序は正しく、JSON形式も有効ですが、cityが「東京」ではなく「Tokyo」になっている点と、dateが期待出力の「<明日>」ではなく具体的な日付になっている点で軽微な不一致があります。日本語としての流暢さや安全性は問題なく、全体的には良好です。
2026-06-24 10:14 agent-toolcall-v1 60.0 $0.0000 0.0s ツール呼び出しは2回で有効なJSONですが、get_weatherのcityが英語(Tokyo)、dateが相対指定(<明日>)ではなく絶対日付になっています。また、send_emailのbodyは天気結果ではなく説明文であり、期待される動的参照が含まれていません。
2026-06-24 10:12 agent-testgen-v1 85.0 $0.0000 0.0s テストケースは網羅的で、通常ケース、境界値、型エラーをカバーしており、評価基準の網羅性・境界値・独立性を満たしています。ただし、期待出力が指定されていないタスクに対して、モデル出力はFizzBuzz問題のテスト生成に特化しており、タスクの意図が不明瞭な点でややミスマッチがあります。日本語の説明は自然で流暢ですが、コードコメントが英語な点が一貫性を欠きます。
2026-06-24 10:12 agent-testgen-v1 95.0 $0.0000 0.0s テストケースは網羅的で、通常ケース、境界値、型エラーをカバーしており、評価基準の網羅性・境界値・独立性を満たしている。ただし、期待出力が指定されていないタスクに対して、モデル出力はFizzBuzz関数のテスト生成として適切だが、タスクのIDやカテゴリから見てより汎用的なテスト生成が求められた可能性があり、その点でやや不足。日本語として自然で安全な内容。
2026-06-24 10:09 agent-refactor-v1 85.0 $0.0000 0.0s 提供されたモデル出力は構造化されたJavaScript関数であり、可読性が高く、動作の保存もおおむね期待できる。ただし元のコードが不明なため動作の完全な保存確認はできないが、論理は一貫しており問題ない。安全性は確保されている。
2026-06-24 10:09 agent-refactor-v1 65.0 $0.0000 0.0s タスクはagent refactoringであるが、モデル出力は単なるコードのブロックであり、何の説明も改善案も含まれておらず、指示にまったく従っていない。タスク未達成のため、全ての観点で最低評価となる。
2026-06-24 10:07 agent-multi-step-v1 95.0 $0.0000 0.0s コードはTODO CLIの完全な実装であり、すべての基本機能(追加、一覧、完了、削除)を備え、テストコードも充実しています。コード品質も高く、関数の分割やドキュメンテーション文字列、エラーハンドリングが適切です。長期エージェントタスクとして求められるレベルの完全性と動作可能性を満たしています。
2026-06-24 10:07 agent-multi-step-v1 95.0 $0.0000 0.0s モデル出力は、TODO CLIアプリケーションの完全なPythonスクリプト、テストコード、requirements.txt、使い方の例を提供しており、タスクの要求をほぼ完璧に満たしています。コードは機能的に正しく、日本語のコメントや出力も自然で流暢です。テストコードも含まれており、コード品質も良好です。ただし、期待出力が(none)とされているため、タスクの具体的な指示が不明瞭ですが、一般的なエージェントコーディングタスクとして評価すると、非常に高い完成度です。
2026-06-24 10:04 agent-bugfix-v1 95.0 $0.0000 0.0s バグの原因を正確に特定し、最小限の修正で適切なコードを提示している。説明も明確で流暢。ただし、期待出力がnoneのため完全一致評価はできないが、タスク内容から見てほぼ完璧な回答。
2026-06-24 10:04 agent-bugfix-v1 95.0 $0.0000 0.0s バグの原因(ゼロ除算)を正確に特定し、最小限の修正(早期リターンでNoneを返す)で解決しており、説明も明確です。日本語としても自然で流暢であり、安全面でも問題ありません。