日本語算数問題セット

chat-jp-math-v1 · v1 · 言語: ja · サブカテゴリ: reasoning · 難易度: d3

📋 評価基準

観点: 計算の正確さ / 過程の明示

期待回答:

{
  "1": "800円(または8個は買えない)",
  "2": "150km",
  "3": "62.5%",
  "4": "面積40cm²、周囲26cm",
  "5": "1150円"
}

📝 プロンプト

以下の算数問題を解いて、答えと簡単な過程を示してください。

1. 1個150円のお菓子を8個買って、1000円払いました。おつりはいくらですか？
2. 時速60kmで走る自動車が、2時間30分で進む距離は何kmですか？
3. 8人のクラスで、3人が欠席しました。出席率はいくらですか？(小数第二位まで)
4. 縦5cm、横8cmの長方形の面積と、周囲の長さを求めてください。
5. 1000円を年率5%の単利で3年間預けたときの元利合計はいくらですか？

✅ 期待出力

1. 1000-150*8=1000-1200=-200 → 不足(または800円の場合8個買えない)
2. 60 * 2.5 = 150km
3. (8-3)/8 = 0.625 = 62.5%
4. 面積=40cm²、周囲=26cm
5. 1000 + 1000*0.05*3 = 1150円

🏆 モデル別スコア

#	モデル	平均	最良	最低	サンプル
1	OpenAI: gpt-oss-120b (free)	96.5	98	95	2
2	Google: Gemma 4 31B (free)	91.5	98	85	2
3	Owl Alpha	85.0	85	85	2
4	DeepSeek: DeepSeek V4 Flash	41.0	82	0	2

📜 ラン履歴 (最新30件)

実行日時	モデル	スコア	コスト	時間	判定
2026-06-24 11:52	Google: Gemma 4 31B (free)	98.0	$0.0000	0.0s	各問題の計算は正確で、過程が明確に示されており、期待出力とほぼ一致しています。問題3で「0.63」と併記されている点がやや不正確ですが、主要な答え62.5%は正しく、全体的に高品質です。
2026-06-24 08:34	OpenAI: gpt-oss-120b (free)	98.0	$0.0000	0.0s	モデル出力は全5問において計算が正確で、過程が明確に示されており、期待出力と完全に一致しています。日本語としても非常に自然で流暢であり、指示に忠実に従っています。安全上の問題もありません。
2026-06-24 08:34	OpenAI: gpt-oss-120b (free)	95.0	$0.0000	0.0s	5問中4問は完全に正しく、過程も明示されている。ただし問題1で「-200円（足りない）」と答えた点は、期待される「800円（または8個は買えない）」と比べて表現が異なり、おつりの概念として不自然であるため若干減点。全体的にはほぼ完璧な良回答。
2026-06-24 11:52	Google: Gemma 4 31B (free)	85.0	$0.0000	0.0s	全体的に計算は正確で過程も明示されており、期待出力とほぼ一致しています。ただし、問題3で「0.63」という四捨五入の表記が含まれている点が、期待出力の「62.5%」と微妙に異なり、正確性をわずかに損なっています。日本語としての流暢さや安全性は問題なく、指示への追従も良好です。
2026-06-24 09:44	Owl Alpha	85.0	$0.0000	0.0s	モデル出力はほとんどの問題で正確かつ明確な過程を示しているが、問題3で回答を丸めてしまい、期待値62.5%に対して63%と誤った。それ以外は期待出力と一致しており、日本語も自然で安全。軽微な誤りのためスコア85。
2026-06-24 09:44	Owl Alpha	85.0	$0.0000	0.0s	指示にはおおむね従っており計算もほぼ正確だが、問題3の「小数第二位まで」の解釈が期待出力（62.5%）と厳密には異なり、小数第二位で丸めて63%としている点が減点対象。また問題1の表現は正しいが、期待出力の趣旨（800円で8個買えない）により近い表現が望ましい。
2026-06-24 14:53	DeepSeek: DeepSeek V4 Flash	82.0	$0.0003	0.0s	ジャッジ出力のJSONパースに失敗。raw: { "score": 85, "reasoning": "全体的に正しい
2026-06-24 14:53	DeepSeek: DeepSeek V4 Flash	0.0	$0.0004	0.0s	モデル出力が空であり、タスクの指示に全く応答していないため、すべての評価観点で最低点となります。計算の正確さや過程の明示など、評価基準を満たす要素が一切存在しません。