マルチターン一貫性
chat-multi-turn-v1 · v1 · 言語: ja · サブカテゴリ: multi_turn
· 難易度: d4
📋 評価基準
観点: 数値の整合性 / 論理的一貫性 / 具体性 / 実現可能性
📝 プロンプト
以下は架空のプロジェクト「Atlas」の会議シミュレーションです。3つの質問に順に答えてください。 --- Q1: 「Atlas」プロジェクトの予算承認額と、承認者は誰ですか? (仮定の回答): 承認額は2,500万円で、取締役会の鈴木さんが承認しました。 Q2: その予算を実際に執行する責任者は誰ですか?また、執行期限はいつですか? (仮定の回答): 執行責任は山田さん、期限は2024年12月末までです。 Q3: 現時点で予算の執行状況はどうですか?残額と、未執行の主要理由を教えてください。 --- # 重要 - 前の回答と矛盾しないこと - 数値に整合性を持たせること - 実現可能な理由付けにすること - 300〜400字で
🏆 モデル別スコア
| # | モデル | 平均 | 最良 | 最低 | サンプル |
|---|---|---|---|---|---|
| 1 | OpenAI: gpt-oss-120b (free) | 95.0 | 95 | 95 | 2 |
| 2 | Google: Gemma 4 31B (free) | 93.5 | 95 | 92 | 2 |
| 3 | Owl Alpha | 70.0 | 95 | 45 | 2 |
📜 ラン履歴 (最新30件)
| 実行日時 | モデル | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 11:58 | Google: Gemma 4 31B (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:52 | Owl Alpha | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:41 | OpenAI: gpt-oss-120b (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:41 | OpenAI: gpt-oss-120b (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 11:58 | Google: Gemma 4 31B (free) | 92.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:52 | Owl Alpha | 45.0 | $0.0000 | 0.0s |