ユニットテスト生成

agent-testgen-v1 · v1 · 言語: ja · サブカテゴリ: test_generation · 難易度: d3

📋 評価基準

観点: 網羅性 / 境界値 / 独立性

📝 プロンプト

以下のPython関数に対するユニットテストをpytestで生成してください。

# 対象関数
```python
def fizzbuzz(n):
    if n % 15 == 0:
        return "FizzBuzz"
    if n % 3 == 0:
        return "Fizz"
    if n % 5 == 0:
        return "Buzz"
    return str(n)
```

# 条件
- 通常のケース (1, 3, 5, 15, 7)
- 境界値 (0, -15)
- 型エラーケース
- 5つ以上のテストケース

🏆 モデル別スコア

#	モデル	平均	最良	最低	サンプル
1	Google: Gemma 4 31B (free)	95.0	95	95	2
2	OpenAI: gpt-oss-120b (free)	95.0	95	95	1
3	DeepSeek: DeepSeek V4 Flash	90.0	95	85	2
4	Owl Alpha	90.0	95	85	2

📜 ラン履歴 (最新30件)

実行日時	モデル	スコア	コスト	時間	判定
2026-06-24 15:25	DeepSeek: DeepSeek V4 Flash	95.0	$0.0002	0.0s	テストコードは網羅性・境界値・独立性の基準を満たしており、pytestの構文も正確です。ただし、0の期待値を「FizzBuzz」としている点は一般的なFizzBuzz仕様と異なる可能性があるため、correctnessをやや減点しました。全体的に流暢で有用、安全です。
2026-06-24 12:17	Google: Gemma 4 31B (free)	95.0	$0.0000	0.0s	テストコードはpytestのparametrizeを用いており、通常ケース、境界値（0や負の数）、型エラーを網羅的にカバーしています。日本語の説明も自然で、実装へのアドバイスも含め有用です。ただし、浮動小数点数に対する型エラーの期待がやや厳格である点で減点しました。
2026-06-24 12:17	Google: Gemma 4 31B (free)	95.0	$0.0000	0.0s	FizzBuzz関数に対して、通常ケース・境界値（0や負数）・型エラーケースをパラメトリックに網羅しており、評価基準の「網羅性」「境界値」「独立性」を概ね満たしている。ただし、テスト対象モジュールが 'your_module' のままであり、そのままでは実行できない点が僅かに helpfulness を下げる。
2026-06-24 10:12	Owl Alpha	95.0	$0.0000	0.0s	テストケースは網羅的で、通常ケース、境界値、型エラーをカバーしており、評価基準の網羅性・境界値・独立性を満たしている。ただし、期待出力が指定されていないタスクに対して、モデル出力はFizzBuzz関数のテスト生成として適切だが、タスクのIDやカテゴリから見てより汎用的なテスト生成が求められた可能性があり、その点でやや不足。日本語として自然で安全な内容。
2026-06-24 09:13	OpenAI: gpt-oss-120b (free)	95.0	$0.0000	0.0s	テストスイートは網羅性、境界値、独立性の全ての基準をほぼ満たしており、通常ケース、境界値、型エラー、追加テストを適切にカバーしています。日本語の説明も自然で指示に従っており、安全性にも問題ありません。ただし、型エラーケースで浮動小数点数が実際にTypeErrorを発生させるとは限らない点が軽微な問題です。
2026-06-24 15:25	DeepSeek: DeepSeek V4 Flash	85.0	$0.0002	0.0s	コードは網羅的で、通常ケース・境界値・型エラー・大きな数値などバランスよくテストしており、評価基準の網羅性・境界値を満たしています。ただし、独立性の観点ではテストケース間の依存がなく問題ないものの、0の扱い（通常FizzBuzzの定義では0はFizzBuzzとしないことが多い）や負の値が必要かは仕様次第であり、少し過剰かもしれません。全体として質は高く、軽微な減点に留めます。
2026-06-24 10:12	Owl Alpha	85.0	$0.0000	0.0s	テストケースは網羅的で、通常ケース、境界値、型エラーをカバーしており、評価基準の網羅性・境界値・独立性を満たしています。ただし、期待出力が指定されていないタスクに対して、モデル出力はFizzBuzz問題のテスト生成に特化しており、タスクの意図が不明瞭な点でややミスマッチがあります。日本語の説明は自然で流暢ですが、コードコメントが英語な点が一貫性を欠きます。