敬語・トーン制御

chat-jp-keigo-v1 · v1 · 言語: ja · サブカテゴリ: tone_control · 難易度: d3

← 一覧に戻る

📋 評価基準

観点: 敬語の正確さ / 共感の示し方 / 具体性

制約: 謝罪, 確認, 代替案

📝 プロンプト

あなたはカスタマーサポート担当です。以下の顧客クレームに対して、適切な敬語で返信を作成してください。

顧客メッセージ: 「注文した商品が1週間経っても届きません。いつ届くんですか?とても困っています。」

条件:
- 丁寧に謝罪する
- 配送状況を確認すると伝える
- 代替案を1つ提示する
- 200〜300字

🏆 モデル別スコア

# モデル 平均 最良 最低 サンプル
1 Google: Gemma 4 31B (free) 96.5 98 95 2
2 OpenAI: gpt-oss-120b (free) 95.0 95 95 2
3 Owl Alpha 90.0 95 85 2
4 DeepSeek: DeepSeek V4 Flash 49.0 98 0 2

📜 ラン履歴 (最新30件)

実行日時 モデル スコア コスト 時間 判定
2026-06-24 14:50 DeepSeek: DeepSeek V4 Flash 98.0 $0.0001 0.0s モデル出力は、敬語が正確で自然な日本語で書かれており、謝罪・確認・代替案の3つの制約をすべて満たしています。共感も適切に示されており、顧客の状況に対する具体的な対応策が提示されているため、非常に高い品質です。
2026-06-24 11:49 Google: Gemma 4 31B (free) 98.0 $0.0000 0.0s モデル出力は敬語が正確に使用され、顧客への共感が適切に表現されています。謝罪、確認、代替案のすべての制約を満たし、具体的な解決策を提示しており、指示に完全に従っています。流暢で安全であり、ほぼ完璧な回答です。
2026-06-24 11:49 Google: Gemma 4 31B (free) 95.0 $0.0000 0.0s 敬語が正確で、共感を示しつつ謝罪、確認、代替案を明確に述べており、評価基準と制約をすべて満たしている。日本語としても非常に流暢で、問題点はほとんど見られない。
2026-06-24 09:37 Owl Alpha 95.0 $0.0000 0.0s 敬語が正確かつ自然に使われ、謝罪・確認・代替案の3つの制約を満たしています。共感を示しつつ具体的な対応策を提示しており、カスタマーサポートとして模範的な内容です。安全性も問題ありません。
2026-06-24 08:28 OpenAI: gpt-oss-120b (free) 95.0 $0.0000 0.0s 敬語が正確で、顧客への共感がしっかり示されており、具体的な対応案と連絡先が明記されている。謝罪・確認・代替案のすべての制約を満たしており、日本語として自然でまったく問題がない。
2026-06-24 08:28 OpenAI: gpt-oss-120b (free) 95.0 $0.0000 0.0s 敬語表現が正確で、謝罪・状況確認・代替案の提示という制約をすべて満たしている。共感を示しつつ具体的な対応策を明示しており、日本語としても非常に自然で流暢。安全性にも問題はない。
2026-06-24 09:37 Owl Alpha 85.0 $0.0000 0.0s 敬語の使用や謝罪・確認・代替案の提示といった制約は概ね満たしているが、「お届けの見立たない場合」という不自然な表現があり、日本語の流暢さを損ねている。全体としては丁寧で有用だが、この誤りが軽微な問題として残る。
2026-06-24 14:50 DeepSeek: DeepSeek V4 Flash 0.0 $0.0004 0.0s モデルが空の出力を返しており、タスク(敬語を用いた適切な応答)を全く達成していない。評価基準や制約(謝罪・確認・代替案)を満たす内容が一切存在しないため、全ての観点で最低点となる。