ツール呼び出し精度
agent-toolcall-v1 · v1 · 言語: ja · サブカテゴリ: tool_use
· 難易度: d3
📋 評価基準
観点: ツール選択 / 引数の正確性 / 順序
制約: valid JSON, 2 calls
📝 プロンプト
以下のツール定義に対して、リクエストに応じて適切なツール呼び出しをJSON形式で出力してください。 # 利用可能ツール 1. get_weather(city: string, date: string) 2. send_email(to: string, subject: string, body: string) 3. search_docs(query: string, limit: int = 5) # リクエスト 「明日の東京の天気を調べて、結果を [email protected] にメールで送ってください。件名は "Weather Report" で。」 # 出力 呼び出すツールのリストをJSON配列で: [{"tool": "...", "arguments": {...}}]
✅ 期待出力
[
{"tool": "get_weather", "arguments": {"city": "東京", "date": "<明日>"}},
{"tool": "send_email", "arguments": {"to": "[email protected]", "subject": "Weather Report", "body": "<天気の結果>"}}
] 🏆 モデル別スコア
| # | モデル | 平均 | 最良 | 最低 | サンプル |
|---|---|---|---|---|---|
| 1 | OpenAI: gpt-oss-120b (free) | 95.0 | 95 | 95 | 1 |
| 2 | Google: Gemma 4 31B (free) | 80.0 | 85 | 75 | 2 |
| 3 | Owl Alpha | 67.5 | 75 | 60 | 2 |
| 4 | DeepSeek: DeepSeek V4 Flash | 0.0 | 0 | 0 | 2 |
📜 ラン履歴 (最新30件)
| 実行日時 | モデル | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 09:15 | OpenAI: gpt-oss-120b (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:19 | Google: Gemma 4 31B (free) | 85.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:19 | Google: Gemma 4 31B (free) | 75.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:14 | Owl Alpha | 75.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:14 | Owl Alpha | 60.0 | $0.0000 | 0.0s | |
| 2026-06-24 15:27 | DeepSeek: DeepSeek V4 Flash | 0.0 | $0.0004 | 0.0s | |
| 2026-06-24 15:27 | DeepSeek: DeepSeek V4 Flash | 0.0 | $0.0004 | 0.0s |