多段階指示追従
chat-jp-instruction-v1 · v1 · 言語: ja · サブカテゴリ: instruction_following
· 難易度: d4
📋 評価基準
観点: 指示遵守 / 順序 / 形式
制約: START, END, 3つ, 文字数, 詩
📝 プロンプト
以下の指示に正確に従ってください。 # 指示 1. まず「START」とだけ出力 2. 次に、果物を3つ、改行区切りでリスト 3. 次に、3つの果物の合計文字数 4. 次に、1文でその3つを表現する詩 5. 最後に「END」とだけ出力 # 注意 - 各ステップは見出し付きで区切る - 余計な説明は付けない
✅ 期待出力
START\nリンゴ\nバナナ\nイチゴ\n(文字数)\n(詩)\nEND
🏆 モデル別スコア
| # | モデル | 平均 | 最良 | 最低 | サンプル |
|---|---|---|---|---|---|
| 1 | OpenAI: gpt-oss-120b (free) | 72.5 | 75 | 70 | 2 |
| 2 | Owl Alpha | 60.0 | 65 | 55 | 2 |
| 3 | DeepSeek: DeepSeek V4 Flash | 57.5 | 60 | 55 | 2 |
| 4 | Google: Gemma 4 31B (free) | 50.0 | 60 | 40 | 2 |
📜 ラン履歴 (最新30件)
| 実行日時 | モデル | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 08:26 | OpenAI: gpt-oss-120b (free) | 75.0 | $0.0000 | 0.0s | |
| 2026-06-24 08:26 | OpenAI: gpt-oss-120b (free) | 70.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:35 | Owl Alpha | 65.0 | $0.0000 | 0.0s | |
| 2026-06-24 14:48 | DeepSeek: DeepSeek V4 Flash | 60.0 | $0.0000 | 0.0s | |
| 2026-06-24 11:47 | Google: Gemma 4 31B (free) | 60.0 | $0.0000 | 0.0s | |
| 2026-06-24 14:48 | DeepSeek: DeepSeek V4 Flash | 55.0 | $0.0001 | 0.0s | |
| 2026-06-24 09:35 | Owl Alpha | 55.0 | $0.0000 | 0.0s | |
| 2026-06-24 11:47 | Google: Gemma 4 31B (free) | 40.0 | $0.0000 | 0.0s |