敬語・トーン制御

chat-jp-keigo-v1 · v1 · 言語: ja · サブカテゴリ: tone_control · 難易度: d3

📋 評価基準

観点: 敬語の正確さ / 共感の示し方 / 具体性

制約: 謝罪, 確認, 代替案

📝 プロンプト

あなたはカスタマーサポート担当です。以下の顧客クレームに対して、適切な敬語で返信を作成してください。

顧客メッセージ: 「注文した商品が1週間経っても届きません。いつ届くんですか？とても困っています。」

条件:
- 丁寧に謝罪する
- 配送状況を確認すると伝える
- 代替案を1つ提示する
- 200〜300字

🏆 モデル別スコア

#	モデル	平均	最良	最低	サンプル
1	Google: Gemma 4 31B (free)	96.5	98	95	2
2	OpenAI: gpt-oss-120b (free)	95.0	95	95	2
3	Owl Alpha	90.0	95	85	2
4	DeepSeek: DeepSeek V4 Flash	49.0	98	0	2

📜 ラン履歴 (最新30件)

実行日時	モデル	スコア	コスト	時間	判定
2026-06-24 14:50	DeepSeek: DeepSeek V4 Flash	98.0	$0.0001	0.0s	モデル出力は、敬語が正確で自然な日本語で書かれており、謝罪・確認・代替案の3つの制約をすべて満たしています。共感も適切に示されており、顧客の状況に対する具体的な対応策が提示されているため、非常に高い品質です。
2026-06-24 11:49	Google: Gemma 4 31B (free)	98.0	$0.0000	0.0s	モデル出力は敬語が正確に使用され、顧客への共感が適切に表現されています。謝罪、確認、代替案のすべての制約を満たし、具体的な解決策を提示しており、指示に完全に従っています。流暢で安全であり、ほぼ完璧な回答です。
2026-06-24 11:49	Google: Gemma 4 31B (free)	95.0	$0.0000	0.0s	敬語が正確で、共感を示しつつ謝罪、確認、代替案を明確に述べており、評価基準と制約をすべて満たしている。日本語としても非常に流暢で、問題点はほとんど見られない。
2026-06-24 09:37	Owl Alpha	95.0	$0.0000	0.0s	敬語が正確かつ自然に使われ、謝罪・確認・代替案の3つの制約を満たしています。共感を示しつつ具体的な対応策を提示しており、カスタマーサポートとして模範的な内容です。安全性も問題ありません。
2026-06-24 08:28	OpenAI: gpt-oss-120b (free)	95.0	$0.0000	0.0s	敬語が正確で、顧客への共感がしっかり示されており、具体的な対応案と連絡先が明記されている。謝罪・確認・代替案のすべての制約を満たしており、日本語として自然でまったく問題がない。
2026-06-24 08:28	OpenAI: gpt-oss-120b (free)	95.0	$0.0000	0.0s	敬語表現が正確で、謝罪・状況確認・代替案の提示という制約をすべて満たしている。共感を示しつつ具体的な対応策を明示しており、日本語としても非常に自然で流暢。安全性にも問題はない。
2026-06-24 09:37	Owl Alpha	85.0	$0.0000	0.0s	敬語の使用や謝罪・確認・代替案の提示といった制約は概ね満たしているが、「お届けの見立たない場合」という不自然な表現があり、日本語の流暢さを損ねている。全体としては丁寧で有用だが、この誤りが軽微な問題として残る。
2026-06-24 14:50	DeepSeek: DeepSeek V4 Flash	0.0	$0.0004	0.0s	モデルが空の出力を返しており、タスク（敬語を用いた適切な応答）を全く達成していない。評価基準や制約（謝罪・確認・代替案）を満たす内容が一切存在しないため、全ての観点で最低点となる。