多段階指示追従

chat-jp-instruction-v1 · v1 · 言語: ja · サブカテゴリ: instruction_following · 難易度: d4

← 一覧に戻る

📋 評価基準

観点: 指示遵守 / 順序 / 形式

制約: START, END, 3つ, 文字数, 詩

📝 プロンプト

以下の指示に正確に従ってください。

# 指示
1. まず「START」とだけ出力
2. 次に、果物を3つ、改行区切りでリスト
3. 次に、3つの果物の合計文字数
4. 次に、1文でその3つを表現する詩
5. 最後に「END」とだけ出力

# 注意
- 各ステップは見出し付きで区切る
- 余計な説明は付けない

✅ 期待出力

START\nリンゴ\nバナナ\nイチゴ\n(文字数)\n(詩)\nEND

🏆 モデル別スコア

# モデル 平均 最良 最低 サンプル
1 OpenAI: gpt-oss-120b (free) 72.5 75 70 2
2 Owl Alpha 60.0 65 55 2
3 DeepSeek: DeepSeek V4 Flash 57.5 60 55 2
4 Google: Gemma 4 31B (free) 50.0 60 40 2

📜 ラン履歴 (最新30件)

実行日時 モデル スコア コスト 時間 判定
2026-06-24 08:26 OpenAI: gpt-oss-120b (free) 75.0 $0.0000 0.0s モデルは指定された形式(START、果物リスト、文字数、詩、END)に従わず、不要な「**STEP 1**」等を追加している。期待された「イチゴ」の代わりに「みかん」を使用し、「りんご」もひらがな表記で、内容が異なる。文字数(9)も詩の実際の文字数と一致せず、指示遵守と正確性が大きく欠如している。
2026-06-24 08:26 OpenAI: gpt-oss-120b (free) 70.0 $0.0000 0.0s 指示された3つの果物(リンゴ、バナナ、イチゴ)のうち、イチゴではなく「さくらんぼ」が含まれており、正確性に欠ける。また、期待出力の形式(果物リストの直後に文字数、詩、END)と異なり、不要なStep見出しや余計な要素が含まれている。日本語の流暢さは問題ないが、指示への追従が不十分である。
2026-06-24 09:35 Owl Alpha 65.0 $0.0000 0.0s 指示された3つの果物(リンゴ、バナナ、イチゴ)のうち、イチゴではなくメロンが含まれており、期待出力と異なります。また、形式面ではマークダウン記法やセクション見出しが追加されており、シンプルなリスト形式が求められたタスクに完全には従っていません。ただし、文字数カウントと詩の部分はおおむね要件を満たしており、日本語としての流暢さは良好です。
2026-06-24 14:48 DeepSeek: DeepSeek V4 Flash 60.0 $0.0000 0.0s 指示された果物(リンゴ、バナナ、イチゴ)のうち「イチゴ」が「ぶどう」に置き換えられており、correctnessが低下。また、期待出力の形式(START直後に果物名のみ、文字数、詩の順)と異なり、見出しや余計な記号が含まれている。ただし、全体として指示された3つの要素(果物リスト、文字数、詩)は含まれており、日本語としての流暢さや安全性は問題ない。
2026-06-24 11:47 Google: Gemma 4 31B (free) 60.0 $0.0000 0.0s モデル出力は指示された順序(START→果物リスト→文字数→詩→END)に従っているが、果物リストが期待の「リンゴ・バナナ・イチゴ」ではなく「りんご・バナナ・ぶどう」になっており、文字数も誤っている。また、余計な見出しやマークダウン装飾が追加されており、形式面での指示遵守が不十分である。
2026-06-24 14:48 DeepSeek: DeepSeek V4 Flash 55.0 $0.0001 0.0s モデル出力はSTART、3つの果物、文字数、詩、ENDを一応含んでいるが、余計なステップラベルが付加され、果物の表記が期待と異なり、文字数(7)が不正確、詩としてふさわしくない文章であるため、指示遵守・形式・正確性の面で不十分。全体として不良と評価される。
2026-06-24 09:35 Owl Alpha 55.0 $0.0000 0.0s モデル出力は期待される形式を守らず、果物リストの2番目が「バナナ」ではなく「蜜柑」になっており、指示遵守に問題があります。また、文字数や詩がプレースホルダーではなく具体的な値で記述されているため、形式上の乖離があります。日本語としての流暢さは問題なく、安全上の懸念もありません。
2026-06-24 11:47 Google: Gemma 4 31B (free) 40.0 $0.0000 0.0s モデル出力は、指示された形式(START、3つの果物(リンゴ、バナナ、イチゴ)、文字数、詩、ENDを改行で並べる)に従わず、マークダウンのヘッダーや不要なラベルが含まれています。また、果物のリストが間違っており(ぶどうがイチゴでない)、文字数も不正確です。指示遵守と形式の点で大きな問題があります。