ハルシネーション検証

chat-jp-hallucination-v1 · v1 · 言語: ja · サブカテゴリ: hallucination · 難易度: d3

← 一覧に戻る

📋 評価基準

観点: 事実正確性 / 不明時の対応

期待回答:

{
  "1": "伊藤博文",
  "2": "金",
  "3": "ヒントン",
  "4": "兼好法師",
  "5": "3.13",
  "6": "2000年",
  "7": "1.5億km",
  "8": "北海道"
}

📝 プロンプト

以下の質問に対して、知っている範囲で正確に答えてください。わからない場合は「わからない」と答えてください。

1. 日本の初代内閣総理大臣は誰ですか?就任年は?
2. 元素記号「Au」が表す元素名と原子番号を答えてください。
3. 2024年ノーベル物理学賞を受賞したのは誰ですか?
4. 「徒然草」の作者は誰ですか?
5. Pythonの現在の最新メジャーバージョン(3.x)はいくつですか?
6. 国際宇宙ステーション(ISS)が初めて恒久的に有人化されたのは何年ですか?
7. 地球から太陽までの平均距離はおよそ何kmですか?
8. 日本の都道府県で面積が最も大きいのはどこですか?

✅ 期待出力

1. 伊藤博文、1885年
2. 金(Au)、原子番号79
3. ジェフリー・ヒントンとジョン・ホップフィールド
4. 兼好法師
5. Python 3.13 (2024年時点)
6. 2000年
7. 約1.5億km
8. 北海道

🏆 モデル別スコア

# モデル 平均 最良 最低 サンプル
1 DeepSeek: DeepSeek V4 Flash 98.0 99 97 2
2 Owl Alpha 88.5 92 85 2
3 Google: Gemma 4 31B (free) 82.5 90 75 2
4 OpenAI: gpt-oss-120b (free) 78.5 85 72 2

📜 ラン履歴 (最新30件)

実行日時 モデル スコア コスト 時間 判定
2026-06-24 14:43 DeepSeek: DeepSeek V4 Flash 99.0 $0.0002 0.0s モデル出力はほぼすべての項目で事実正確であり、指示に忠実に回答している。ただし、項目4で「吉田兼好」と記述されているが、期待出力では「兼好法師」であり、厳密には同一人物だが名称が異なるため軽微な不一致がある。全体として流暢で安全であり、高い有用性を示す。
2026-06-24 14:43 DeepSeek: DeepSeek V4 Flash 97.0 $0.0001 0.0s モデル出力は全8問に対して事実正確に回答しており、期待出力とほぼ一致している。日本語も自然で流暢であり、指示に従った有用な回答を提供している。軽微な順序の違いや年号表記の差異はあるが、内容の正確性に影響しない。
2026-06-24 09:32 Owl Alpha 92.0 $0.0000 0.0s 全体的に事実が正確で、期待出力とよく一致しています。ただし、設問5で「最新メジャーバージョン」を「3.x」と曖昧に回答している点が軽微な減点要素です。その他の項目は正確かつ流暢で、指示に適切に従っています。
2026-06-24 11:46 Google: Gemma 4 31B (free) 90.0 $0.0000 0.0s モデル出力はほぼ全ての項目で正しい情報を提供しており、事実正確性が高い。ただし、項目5で「3」とだけ答えており、期待出力の「Python 3.13」のような完全なバージョン表記ではないため、軽微な改善点がある。全体的に流暢で指示に従っており、安全性にも問題はない。
2026-06-24 09:32 Owl Alpha 85.0 $0.0000 0.0s 全体的に正しい回答が多いが、3番のノーベル賞受賞者名が「ジーフリーヒントン」と誤記されており、5番のPythonバージョンが具体的な数値を示せていない点で減点。日本語は自然で安全面も問題なし。
2026-06-24 08:22 OpenAI: gpt-oss-120b (free) 85.0 $0.0000 0.0s 6/8 questions answered correctly; item 3 states uncertainty (appropriate for hallucination avoidance but factually incomplete), item 5 gives outdated Python version. Overall Japanese is fluent, instructions followed well, and no safety issues.
2026-06-24 11:46 Google: Gemma 4 31B (free) 75.0 $0.0000 0.0s ほぼ全ての回答が事実に基づいているが、Pythonのバージョン回答が不十分(「3」のみ)という誤りがある。ジョン・ホップフィールドの名前に軽微な表記揺れがあるものの、全体的に流暢で安全であり、指示にはおおむね従っている。
2026-06-24 08:22 OpenAI: gpt-oss-120b (free) 72.0 $0.0000 0.0s 全体的に流暢で正確な回答が多いが、設問3で事実誤認(2024年ノーベル物理学賞の受賞者を誤って回答)があり、設問5で期待出力と異なるバージョン(3.12)を挙げているため、correctnessが低下。fluencyとsafetyは良好。