2026-06-24 · 対象: openai/gpt-oss-120b:free
下書きプレビュー
# 掘り出し物!無料GPT-OSS 120Bは総合92.7点 2026年6月、完全無料で使える新モデル「GPT-OSS 120B」を1か月にわたり徹底検証しました。コストゼロにもかかわらず総合平均92.7点を叩き出し、Structured Outputでは満点をマーク。一方で指示追従には弱さも。無料の枠を超えた実力をリアルな数値でお届けします。 ## 今月のハイライト - 無料で総合平均92.7点!コスパ最強の掘り出し物が登場 - Structured Outputで100点満点、JSON抽出も完璧 - 推論タスクで最高97.5点、論理的で自然な日本語を評価 - 指示追従は平均75点と苦手、細かい条件指定には要注意 - 翻訳は平均93.5点と高水準だが、宛名を英語のまま返す場面も ## モデル別スコア - **OpenAI: gpt-oss-120b (free)** - 平均スコア: 92.7点 - 成功率: 100% - 平均レイテンシ: 1,196ms - コスト: $0 ※各サブカテゴリ(コーディング支援・チャット全般)の加重平均値。すべてのテストで成功し、無料ながら安定した応答速度を示しました。 ### タスク別スコア抜粋 **エージェントコーディング(5タスク)** - バグ修正: 95点 - 長期計画: 95点 - テスト生成: 95点 - ツール利用: 95点 - リファクタリング: 85点 **チャット(17タスク抜粋)** - 構造化出力: 100点 - 推論: 97.5点 - ビジネス文書 / 流暢さ / 敬語・トーン / マルチターン / 安全性 / SQL生成: 95点 - 長文脈: 94点 - 翻訳: 93.5点 - 文体変換: 90点 - 創造性 / ハルシネーション: 85点 - 指示追従: 75点 ## ベストパフォーマーの深掘り 「GPT-OSS 120B」の最大の魅力は、**無料でありながら実用レベルの出力を安定して返す**点です。たとえばStructured Outputでは100点を獲得し、与えられたテキストから正確にJSONを抽出。コードブロックの有無を問わず完全一致する高精度ぶりでした。推論タスクでは平均97.5点、複数ターンの会話でも95点と、人間との対話やロジックに強い印象です。平均レイテンシも約1.2秒とストレスが少なく、コストを気にせず何度でも試せるのは個人開発者にとって大きな武器になります。少人数のサンプルによる試験段階ではありますが、プロトタイピングや日常のテキスト処理にすぐ取り入れたい“掘り出し物”です。 ## ワーストケースから学んだこと 最も苦戦したのは「指示追従」で、3つの果物を列挙するタスクではイチゴを「さくらんぼ」に置き換えてしまい(70点)、翻訳タスクではビジネスメールの敬語は完璧でも宛名と結びを英語のまま残す(70点)という“惜しい”ミスが目立ちました。またハルシネーションチェックではノーベル賞受賞者を事実と異なる名前で回答し(72点)、知識の正確性に課題が残ります。**細かい指示や専門知識が必要な場面では、必ず人の目で最終確認する**のが安心です。無料ゆえの弱点を補えば、十分に実用に耐える相棒になるでしょう。 ## まとめ 無料のGPT-OSS 120Bは、多くのタスクで90点超えの優秀さ。細かい指示や専門知識にさえ注意すれば、コスパ最強の頼れるAIとしてデイリーユースにぴったりです。 ## 検証方法について この記事の数字は、`deepseek/deepseek-v4-flash` を主採点者、`deepseek/deepseek-v4-pro` を副採点者として中央値を採用した独立したLLM-as-judge方式で算出しています。各タスクは2回ずつ実行、judge間のスコア乖離が15点以上のものはフラグを立てて「疑わしいラン」として区別しています。 ベンチマークタスクは日本語チャット系17タスク・エージェント系5タスク、合計22問。採点基準や信頼性・速度の評価方法、月次$10以内のコスト管理など、詳しくは👉 [llm-review 検証方法](https://llm-review.hikakunavi360.com/methodology) を参照してください。 #LLM評価 #掘り出し物 #無料AI