多段階タスク (TODO CLI)

agent-multi-step-v1 · v1 · 言語: ja · サブカテゴリ: long_horizon · 難易度: d5

📋 評価基準

観点: 完全性 / 動作可能性 / テスト / コード品質

📝 プロンプト

あなたはCLIツールを作るソフトウェアエンジニアです。以下の仕様でPythonスクリプトを作成してください。

# 仕様
- コマンドライン引数でタスクを追加/一覧/完了できるTODO CLI
- データはJSONファイル(todos.json)に永続化
- サブコマンド: add, list, done <id>, delete <id>
- listは未完了/完了で分けて表示
- 単体テストをpytestで1つ以上付ける

# 出力
完成したPythonコード一式を提示してください。

# 注意
- 動作する完全なコードにすること
- コードブロックは1つにまとめること

🏆 モデル別スコア

#	モデル	平均	最良	最低	サンプル
1	Google: Gemma 4 31B (free)	95.0	95	95	2
2	OpenAI: gpt-oss-120b (free)	95.0	95	95	1
3	Owl Alpha	95.0	95	95	2
4	DeepSeek: DeepSeek V4 Flash	94.0	95	93	2

📜 ラン履歴 (最新30件)

実行日時	モデル	スコア	コスト	時間	判定
2026-06-24 15:18	DeepSeek: DeepSeek V4 Flash	95.0	$0.0004	0.0s	モデル出力は完全かつ動作可能なTODO CLIを提供しており、追加・一覧表示・完了・削除の機能とJSON永続化、エラーハンドリング、テストコードまで含まれています。コード品質も高く、日本語のドキュメントやコメントも自然です。評価基準（完全性、動作可能性、テスト、コード品質）をすべて満たしており、軽微な改善点（テスト分離の完璧さ）を除けばほぼ完璧です。
2026-06-24 12:13	Google: Gemma 4 31B (free)	95.0	$0.0000	0.0s	このモデル出力は、完全な動作可能なTODO CLIツールを提供しており、argparseを用いたサブコマンド実装、TodoManagerクラスによるデータ管理のカプセル化、pytestを用いたテストコードの同梱、設計上のポイントの説明など、評価基準の完全性、動作可能性、テスト、コード品質のすべてを高い水準で満たしています。コードも読みやすく、日本語の説明も自然で流暢です。わずかに改善点として、エラーハンドリングが最小限である点（例：重複IDの考慮）が挙げられますが、タスクの要件に対して非常に優れた回答です。
2026-06-24 12:13	Google: Gemma 4 31B (free)	95.0	$0.0000	0.0s	モデル出力は、TODO CLIツールの完全な実装、テストコード、設計ポイントを提供しており、高い完全性・動作可能性・コード品質を備えています。日本語も自然で、指示に十分に従っており、不適切な内容もありません。テストコードが含まれている点も評価基準を満たします。
2026-06-24 10:07	Owl Alpha	95.0	$0.0000	0.0s	コードはTODO CLIの完全な実装であり、すべての基本機能（追加、一覧、完了、削除）を備え、テストコードも充実しています。コード品質も高く、関数の分割やドキュメンテーション文字列、エラーハンドリングが適切です。長期エージェントタスクとして求められるレベルの完全性と動作可能性を満たしています。
2026-06-24 10:07	Owl Alpha	95.0	$0.0000	0.0s	モデル出力は、TODO CLIアプリケーションの完全なPythonスクリプト、テストコード、requirements.txt、使い方の例を提供しており、タスクの要求をほぼ完璧に満たしています。コードは機能的に正しく、日本語のコメントや出力も自然で流暢です。テストコードも含まれており、コード品質も良好です。ただし、期待出力が(none)とされているため、タスクの具体的な指示が不明瞭ですが、一般的なエージェントコーディングタスクとして評価すると、非常に高い完成度です。
2026-06-24 09:05	OpenAI: gpt-oss-120b (free)	95.0	$0.0000	0.0s	モデル出力は、完全なTODO CLIツールとそのテストコードを提供しており、指示された機能をすべて実装しています。コードは動作可能で、テストも含まれており、コード品質も高いです。ただし、テストコードで動的インポートを使用している点がやや複雑で、よりシンプルな方法が可能かもしれません。
2026-06-24 15:18	DeepSeek: DeepSeek V4 Flash	93.0	$0.0004	0.0s	CLI TODOツールとして完全に動作し、テストコードも付属している。コード品質も高く、日本語としての説明は含まれないが、タスクの要求を十分に満たしている。軽微な改善点として、テストが標準出力の文字列比較に依存しており、出力形式の変更に弱い点が挙げられる。