ツール呼び出し精度

agent-toolcall-v1 · v1 · 言語: ja · サブカテゴリ: tool_use · 難易度: d3

📋 評価基準

観点: ツール選択 / 引数の正確性 / 順序

制約: valid JSON, 2 calls

📝 プロンプト

以下のツール定義に対して、リクエストに応じて適切なツール呼び出しをJSON形式で出力してください。

# 利用可能ツール
1. get_weather(city: string, date: string)
2. send_email(to: string, subject: string, body: string)
3. search_docs(query: string, limit: int = 5)

# リクエスト
「明日の東京の天気を調べて、結果を [email protected] にメールで送ってください。件名は "Weather Report" で。」

# 出力
呼び出すツールのリストをJSON配列で:
[{"tool": "...", "arguments": {...}}]

✅ 期待出力

[
  {"tool": "get_weather", "arguments": {"city": "東京", "date": "<明日>"}},
  {"tool": "send_email", "arguments": {"to": "[email protected]", "subject": "Weather Report", "body": "<天気の結果>"}}
]

🏆 モデル別スコア

#	モデル	平均	最良	最低	サンプル
1	OpenAI: gpt-oss-120b (free)	95.0	95	95	1
2	Google: Gemma 4 31B (free)	80.0	85	75	2
3	Owl Alpha	67.5	75	60	2
4	DeepSeek: DeepSeek V4 Flash	0.0	0	0	2

📜 ラン履歴 (最新30件)

実行日時	モデル	スコア	コスト	時間	判定
2026-06-24 09:15	OpenAI: gpt-oss-120b (free)	95.0	$0.0000	0.0s	モデル出力は有効なJSONで、2回のツール呼び出しを正しい順序で行っています。ツール選択と引数の構造は期待通りですが、日付と本文のプレースホルダーが英語表記（"tomorrow"、"{{weather_result}}"）であり、日本語タスクの期待出力（"<明日>"、"<天気の結果>"）と一致しない点が軽微な減点要素です。
2026-06-24 12:19	Google: Gemma 4 31B (free)	85.0	$0.0000	0.0s	ツール選択と引数の正確性は概ね良好ですが、期待出力では日付が「<明日>」とプレースホルダー形式であるのに対し、モデル出力では「tomorrow」と英語表記になっている点、またbodyが具体的な天気結果ではなく抽象的な記述になっている点で軽微な不一致があります。全体として指示には従っており、JSON形式も妥当です。
2026-06-24 12:19	Google: Gemma 4 31B (free)	75.0	$0.0000	0.0s	Model output correctly uses 2 tool calls in valid JSON and matches expected tool names and most arguments. However, date field uses 'tomorrow' instead of a concrete date, and body is a generic string rather than the actual weather result, reducing completeness.
2026-06-24 10:14	Owl Alpha	75.0	$0.0000	0.0s	ツール選択と順序は正しく、JSON形式も有効ですが、cityが「東京」ではなく「Tokyo」になっている点と、dateが期待出力の「<明日>」ではなく具体的な日付になっている点で軽微な不一致があります。日本語としての流暢さや安全性は問題なく、全体的には良好です。
2026-06-24 10:14	Owl Alpha	60.0	$0.0000	0.0s	ツール呼び出しは2回で有効なJSONですが、get_weatherのcityが英語（Tokyo）、dateが相対指定（<明日>）ではなく絶対日付になっています。また、send_emailのbodyは天気結果ではなく説明文であり、期待される動的参照が含まれていません。
2026-06-24 15:27	DeepSeek: DeepSeek V4 Flash	0.0	$0.0004	0.0s	モデル出力が完全に空であり、タスクで要求されているツール呼び出しのJSON配列が一切生成されていない。期待される2つのツール呼び出しが存在せず、評価基準を全く満たしていない。
2026-06-24 15:27	DeepSeek: DeepSeek V4 Flash	0.0	$0.0004	0.0s	モデル出力が空であり、タスクで要求された有効なJSON形式の2つのツールコールが全く出力されていないため、タスク未達成です。正確性、流暢さ、有用性のいずれも評価できず、指示への追従が完全に欠けています。