多段階タスク (TODO CLI)
agent-multi-step-v1 · v1 · 言語: ja · サブカテゴリ: long_horizon
· 難易度: d5
📋 評価基準
観点: 完全性 / 動作可能性 / テスト / コード品質
📝 プロンプト
あなたはCLIツールを作るソフトウェアエンジニアです。以下の仕様でPythonスクリプトを作成してください。 # 仕様 - コマンドライン引数でタスクを追加/一覧/完了できるTODO CLI - データはJSONファイル(todos.json)に永続化 - サブコマンド: add, list, done <id>, delete <id> - listは未完了/完了で分けて表示 - 単体テストをpytestで1つ以上付ける # 出力 完成したPythonコード一式を提示してください。 # 注意 - 動作する完全なコードにすること - コードブロックは1つにまとめること
🏆 モデル別スコア
| # | モデル | 平均 | 最良 | 最低 | サンプル |
|---|---|---|---|---|---|
| 1 | Google: Gemma 4 31B (free) | 95.0 | 95 | 95 | 2 |
| 2 | OpenAI: gpt-oss-120b (free) | 95.0 | 95 | 95 | 1 |
| 3 | Owl Alpha | 95.0 | 95 | 95 | 2 |
| 4 | DeepSeek: DeepSeek V4 Flash | 94.0 | 95 | 93 | 2 |
📜 ラン履歴 (最新30件)
| 実行日時 | モデル | スコア | コスト | 時間 | 判定 |
|---|---|---|---|---|---|
| 2026-06-24 15:18 | DeepSeek: DeepSeek V4 Flash | 95.0 | $0.0004 | 0.0s | |
| 2026-06-24 12:13 | Google: Gemma 4 31B (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 12:13 | Google: Gemma 4 31B (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:07 | Owl Alpha | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 10:07 | Owl Alpha | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 09:05 | OpenAI: gpt-oss-120b (free) | 95.0 | $0.0000 | 0.0s | |
| 2026-06-24 15:18 | DeepSeek: DeepSeek V4 Flash | 93.0 | $0.0004 | 0.0s |