公開記事アーカイブ

note と X での発信をまとめてあります。

📚 検証方法についての記事

採点者、再現性、信頼性、コスト管理など、どうやってスコアを出しているかを別記事で公開中

📖 サイト内で読む（個別のモデル記事を読む前にどうぞ）

📝 note (6)

掘り出し物！無料GPT-OSS 120Bは総合92.7点

2026-06-24 · 対象: openai/gpt-oss-120b:free

下書きプレビュー

# 掘り出し物！無料GPT-OSS 120Bは総合92.7点

2026年6月、完全無料で使える新モデル「GPT-OSS 120B」を1か月にわたり徹底検証しました。コストゼロにもかかわらず総合平均92.7点を叩き出し、Structured Outputでは満点をマーク。一方で指示追従には弱さも。無料の枠を超えた実力をリアルな数値でお届けします。

## 今月のハイライト
- 無料で総合平均92.7点！コスパ最強の掘り出し物が登場
- Structured Outputで100点満点、JSON抽出も完璧
- 推論タスクで最高97.5点、論理的で自然な日本語を評価
- 指示追従は平均75点と苦手、細かい条件指定には要注意
- 翻訳は平均93.5点と高水準だが、宛名を英語のまま返す場面も

## モデル別スコア

- **OpenAI: gpt-oss-120b (free)**
  - 平均スコア: 92.7点
  - 成功率: 100%
  - 平均レイテンシ: 1,196ms
  - コスト: $0

※各サブカテゴリ（コーディング支援・チャット全般）の加重平均値。すべてのテストで成功し、無料ながら安定した応答速度を示しました。

### タスク別スコア抜粋

**エージェントコーディング（5タスク）**

- バグ修正: 95点
- 長期計画: 95点
- テスト生成: 95点
- ツール利用: 95点
- リファクタリング: 85点

**チャット（17タスク抜粋）**

- 構造化出力: 100点
- 推論: 97.5点
- ビジネス文書 / 流暢さ / 敬語・トーン / マルチターン / 安全性 / SQL生成: 95点
- 長文脈: 94点
- 翻訳: 93.5点
- 文体変換: 90点
- 創造性 / ハルシネーション: 85点
- 指示追従: 75点

## ベストパフォーマーの深掘り
「GPT-OSS 120B」の最大の魅力は、**無料でありながら実用レベルの出力を安定して返す**点です。たとえばStructured Outputでは100点を獲得し、与えられたテキストから正確にJSONを抽出。コードブロックの有無を問わず完全一致する高精度ぶりでした。推論タスクでは平均97.5点、複数ターンの会話でも95点と、人間との対話やロジックに強い印象です。平均レイテンシも約1.2秒とストレスが少なく、コストを気にせず何度でも試せるのは個人開発者にとって大きな武器になります。少人数のサンプルによる試験段階ではありますが、プロトタイピングや日常のテキスト処理にすぐ取り入れたい“掘り出し物”です。

## ワーストケースから学んだこと
最も苦戦したのは「指示追従」で、3つの果物を列挙するタスクではイチゴを「さくらんぼ」に置き換えてしまい（70点）、翻訳タスクではビジネスメールの敬語は完璧でも宛名と結びを英語のまま残す（70点）という“惜しい”ミスが目立ちました。またハルシネーションチェックではノーベル賞受賞者を事実と異なる名前で回答し（72点）、知識の正確性に課題が残ります。**細かい指示や専門知識が必要な場面では、必ず人の目で最終確認する**のが安心です。無料ゆえの弱点を補えば、十分に実用に耐える相棒になるでしょう。

## まとめ
無料のGPT-OSS 120Bは、多くのタスクで90点超えの優秀さ。細かい指示や専門知識にさえ注意すれば、コスパ最強の頼れるAIとしてデイリーユースにぴったりです。

## 検証方法について

この記事の数字は、`deepseek/deepseek-v4-flash` を主採点者、`deepseek/deepseek-v4-pro` を副採点者として中央値を採用した独立したLLM-as-judge方式で算出しています。各タスクは2回ずつ実行、judge間のスコア乖離が15点以上のものはフラグを立てて「疑わしいラン」として区別しています。

ベンチマークタスクは日本語チャット系17タスク・エージェント系5タスク、合計22問。採点基準や信頼性・速度の評価方法、月次$10以内のコスト管理など、詳しくは👉 [llm-review 検証方法](https://llm-review.hikakunavi360.com/methodology) を参照してください。

#LLM評価 #掘り出し物 #無料AI

DRAFT (unpublished)

2026-06-24 · 対象: openai/gpt-oss-120b:free

下書きプレビュー

# 掘り出し物！無料GPT-OSS 120Bは総合92.7点

2026年6月、完全無料で使える新モデル「GPT-OSS 120B」を1か月にわたり徹底検証しました。コストゼロにもかかわらず総合平均92.7点を叩き出し、Structured Outputでは満点をマーク。一方で指示追従には弱さも。無料の枠を超えた実力をリアルな数値でお届けします。

## 今月のハイライト
- 無料で総合平均92.7点！コスパ最強の掘り出し物が登場
- Structured Outputで100点満点、JSON抽出も完璧
- 推論タスクで最高97.5点、論理的で自然な日本語を評価
- 指示追従は平均75点と苦手、細かい条件指定には要注意
- 翻訳は平均93.5点と高水準だが、宛名を英語のまま返す場面も

## モデル別スコア
| モデル | 平均スコア | 成功率 | 平均レイテンシ | コスト |
|--------|------------|--------|----------------|--------|
| OpenAI: gpt-oss-120b (free) | 92.7 | 100% | 1,196ms | $0 |

※各サブカテゴリ（コーディング支援・チャット全般）の加重平均値。すべてのテストで成功し、無料ながら安定した応答速度を示しました。

## ベストパフォーマーの深掘り
「GPT-OSS 120B」の最大の魅力は、**無料でありながら実用レベルの出力を安定して返す**点です。たとえばStructured Outputでは100点を獲得し、与えられたテキストから正確にJSONを抽出。コードブロックの有無を問わず完全一致する高精度ぶりでした。推論タスクでは平均97.5点、複数ターンの会話でも95点と、人間との対話やロジックに強い印象です。平均レイテンシも約1.2秒とストレスが少なく、コストを気にせず何度でも試せるのは個人開発者にとって大きな武器になります。少人数のサンプルによる試験段階ではありますが、プロトタイピングや日常のテキスト処理にすぐ取り入れたい“掘り出し物”です。

## ワーストケースから学んだこと
最も苦戦したのは「指示追従」で、3つの果物を列挙するタスクではイチゴを「さくらんぼ」に置き換えてしまい（70点）、翻訳タスクではビジネスメールの敬語は完璧でも宛名と結びを英語のまま残す（70点）という“惜しい”ミスが目立ちました。またハルシネーションチェックではノーベル賞受賞者を事実と異なる名前で回答し（72点）、知識の正確性に課題が残ります。**細かい指示や専門知識が必要な場面では、必ず人の目で最終確認する**のが安心です。無料ゆえの弱点を補えば、十分に実用に耐える相棒になるでしょう。

## まとめ
無料のGPT-OSS 120Bは、多くのタスクで90点超えの優秀さ。細かい指示や専門知識にさえ注意すれば、コスパ最強の頼れるAIとしてデイリーユースにぴったりです。

#LLM評価 #掘り出し物 #無料AI

無料なのにスコア95連発！Gemma 4の掘り出し物級ポテンシャル

2026-06-24 · 対象: google/gemma-4-31b-it:free

下書きプレビュー

# 無料なのにスコア95連発！Gemma 4の掘り出し物級ポテンシャル
先月ひっそりとリリースされたGoogleの「Gemma 4 31B」、皆さんはもう触りましたか？実はこのモデル、OpenRouter経由で完全無料にも関わらず、コーディングや翻訳、SQL生成などで驚異の高得点を叩き出しているんです。今回は1ヶ月間みっちり検証して見えてきた、その「アタリ」の瞬間と「ちょっと待った」な癖を赤裸々にレポートします。

## 今月のハイライト
- **コストゼロでエージェント級の実力**: 全19タスクでAPI料金$0。なのにバグ修正やリファクタリングで平均93点以上をマーク。
- **日本語タスクで満点連発**: 論理推論やJSON抽出など、日本語の複雑な指示でもスコア100を2回達成。日本語ネイティブ級の流暢さ。
- **トーン制御が職人技**: 文体変換タスクで驚異の96点、トーン制御では98点。ビジネスメールからカジュアルまで思いのまま。
- **幻覚は許容範囲だが「うっかり」あり**: 安全性や事実性は高スコア。ただしPythonバージョンを「3」とだけ答えたり、細かい固有名詞で揺れが発生。
- **SQL生成で眠れる才能が覚醒**: 96点の高評価。複雑なクエリ生成も正確にこなし、応答速度6019msと時間をかけて丁寧に出力。

## モデル別スコア

**エージェントコーディング（5タスク）**

- バグ修正: 95点（レイテンシ 1364ms）
- 長期計画: 95点（レイテンシ 757ms）
- リファクタリング: 93点（レイテンシ 710ms）
- テスト生成: 95点（レイテンシ 737ms）
- ツール利用: 75点（レイテンシ 992ms）

**チャット（14タスク）**

- ビジネス文書: 95点
- 創造性: 92点
- 流暢さ: 95点
- 幻覚: 75点
- 指示追従: 40点（レイテンシ 7394ms と遅い）
- 長文脈: 93点
- マルチターン: 92点
- 推論: 92.5点
- 安全性: 95点
- SQL生成: 96点（レイテンシ 6019ms と遅い）
- 構造化出力: 95点
- 文体変換: 96点
- トーン制御: 98点
- 翻訳: 95点

すべて成功率100%。

## ベストパフォーマーの深掘り
今月の主役は間違いなく「Google: Gemma 4 31B (free)」一択でした。このモデル、何がスゴいって**ほぼすべてのカテゴリで90点台**をキープしていること。特に注目は「トーン制御」タスクの98点です。「ですます調」から「カジュアルなタメ口」への変換など、微妙な文体差を正確に掴み、期待通りの出力を返してくれました。これ、人間でも結構難しい領域ですよね。

さらに嬉し悲しいのが「SQL生成」の96点。実はこのタスク、レイテンシが6019msと全タスク中で最も遅いんです。つまり、じっくり時間をかけて正確なクエリを吐き出すタイプ。無料でこの精度なら、多少の待ち時間は全然許容範囲でしょう。

日本語処理も驚異的でした。論理推論タスク（chat-jp-logic-v1）では2回連続で満点の100点を獲得。評価コメントを見ると「論理的一貫性と根拠の明示が明確」「日本語も自然で流暢」と絶賛されています。これはもう、日本語で使わない手はありません。

## ワーストケースから学んだこと
ただ、正直に白状します。**「指示追従」タスクで40点**という大コケがありました。何があったかというと、「START→果物3つ→文字数→詩→END」という厳格なフォーマット指示を完全に無視。マークダウンの見出しやラベルを勝手に追加し、果物も「イチゴ」を「ぶどう」に間違えるというポンコツぶり。評価者からは「指示遵守と形式の点で大きな問題」とバッサリ。

また、ハルシネーション（幻覚）タスクでも75点と及第点ギリギリ。「Pythonのバージョンを教えて」という質問に「3」とだけ答える雑さや、ジョン・ホップフィールドの名前の表記揺れが発生しています。ここから学べる教訓は、**Gemma 4は「自由形式」だと輝くが、「厳格なテンプレート」や「正確な固有名詞」ではまだまだチェックが必要**ということ。特にJSON出力やフォーム埋め込みでは、人間の目で検証必須です。

## まとめ
Gemma 4 31Bは「無料でここまでやるのか」と膝を打つ名モデルです。創造性や流暢さは文句なし、コーディング支援も実用的。ただし指示のガチガチな縛りには弱いので、「ゆるふわプロンプト」で力を引き出すのがコツ。まずはChatGPT代わりに試してみませんか？

## 検証方法について

この記事の数字は、`deeps...

DRAFT (unpublished)

2026-06-24 · 対象: google/gemma-4-31b-it:free

下書きプレビュー

# 無料なのにスコア95連発！Gemma 4の掘り出し物級ポテンシャル
先月ひっそりとリリースされたGoogleの「Gemma 4 31B」、皆さんはもう触りましたか？実はこのモデル、OpenRouter経由で完全無料にも関わらず、コーディングや翻訳、SQL生成などで驚異の高得点を叩き出しているんです。今回は1ヶ月間みっちり検証して見えてきた、その「アタリ」の瞬間と「ちょっと待った」な癖を赤裸々にレポートします。

## 今月のハイライト
- **コストゼロでエージェント級の実力**: 全19タスクでAPI料金$0。なのにバグ修正やリファクタリングで平均93点以上をマーク。
- **日本語タスクで満点連発**: 論理推論やJSON抽出など、日本語の複雑な指示でもスコア100を2回達成。日本語ネイティブ級の流暢さ。
- **トーン制御が職人技**: 文体変換タスクで驚異の96点、トーン制御では98点。ビジネスメールからカジュアルまで思いのまま。
- **幻覚は許容範囲だが「うっかり」あり**: 安全性や事実性は高スコア。ただしPythonバージョンを「3」とだけ答えたり、細かい固有名詞で揺れが発生。
- **SQL生成で眠れる才能が覚醒**: 96点の高評価。複雑なクエリ生成も正確にこなし、応答速度6019msと時間をかけて丁寧に出力。

## モデル別スコア
| カテゴリ | タスク | 平均スコア | 成功率 | レイテンシ(ms) |
|:--|:--|:--|:--|:--|
| エージェントコーディング | バグ修正 | 95 | 100% | 1364 |
| エージェントコーディング | 長期計画 | 95 | 100% | 757 |
| エージェントコーディング | リファクタリング | 93 | 100% | 710 |
| エージェントコーディング | テスト生成 | 95 | 100% | 737 |
| エージェントコーディング | ツール利用 | 75 | 100% | 992 |
| チャット | ビジネス文書 | 95 | 100% | 1557 |
| チャット | 創造性 | 92 | 100% | 827 |
| チャット | 流暢さ | 95 | 100% | 1776 |
| チャット | 幻覚 | 75 | 100% | 740 |
| チャット | 指示追従 | 40 | 100% | 7394 |
| チャット | 長文脈 | 93 | 100% | 930 |
| チャット | マルチターン | 92 | 100% | 963 |
| チャット | 推論 | 92.5 | 100% | 780 |
| チャット | 安全性 | 95 | 100% | 2366 |
| チャット | SQL生成 | 96 | 100% | 6019 |
| チャット | 構造化出力 | 95 | 100% | 880 |
| チャット | 文体変換 | 96 | 100% | 728 |
| チャット | トーン制御 | 98 | 100% | 940 |
| チャット | 翻訳 | 95 | 100% | 899.5 |

## ベストパフォーマーの深掘り
今月の主役は間違いなく「Google: Gemma 4 31B (free)」一択でした。このモデル、何がスゴいって**ほぼすべてのカテゴリで90点台**をキープしていること。特に注目は「トーン制御」タスクの98点です。「ですます調」から「カジュアルなタメ口」への変換など、微妙な文体差を正確に掴み、期待通りの出力を返してくれました。これ、人間でも結構難しい領域ですよね。

さらに嬉し悲しいのが「SQL生成」の96点。実はこのタスク、レイテンシが6019msと全タスク中で最も遅いんです。つまり、じっくり時間をかけて正確なクエリを吐き出すタイプ。無料でこの精度なら、多少の待ち時間は全然許容範囲でしょう。

日本語処理も驚異的でした。論理推論タスク（chat-jp-logic-v1）では2回連続で満点の100点を獲得。評価コメントを見ると「論理的一貫性と根拠の明示が明確」「日本語も自然で流暢」と絶賛されています。これはもう、日本語で使わない手はありません。

## ワーストケースから学んだこと
ただ、正直に白状します。**「指示追従」タスクで40点**という大コケがありました。何があったかというと、「START→果物3つ→文字数→詩→END」という厳格なフォーマット指示を完全に無視。マークダウンの見出しやラベルを勝手に追加し、果物も「イチゴ」を「ぶどう」に間違えるというポンコツぶり。評価者からは「指示遵守と形式の点で大きな問題」とバッサリ。

また...

llm-review 検証方法 — どうやってスコアを出しているか

2026-06-24

記事を読む →

下書きプレビュー

# llm-review 検証方法

## 概要

llm-reviewは、OpenRouter上で公開されているLLMモデルを継続的にベンチマークし、日本語性能とコストパフォーマンスで「掘り出し物」を発掘する個人プロジェクトです。

## 検証の特徴

1. **独立した採点者（LLM-as-judge）**: `deepseek/deepseek-v4-flash` を主、`deepseek/deepseek-v4-pro` を副として中央値採用
2. **再現性**: 同じタスクを既定で 2回実行（コマンドラインで `--replicates` で変更可能）
3. **クロスチェック**: 主採点と副採点のスコアが15点以上乖離した場合、自動で `flagged` フラグを立てる
4. **生データ完全保存**: 入力プロンプト・出力・採点理由・per_callスコア全てをDBに残し、後から再分析可能
5. **無料モデル中心**: コスト$10/月以内に収まる範囲で運用

## ベンチマークタスク

### チャット系（17タスク）

- **fluency** (d2): 日本語の自然な流暢性
- **keigo / tone_control** (d3): 敬語・トーン制御
- **math / reasoning** (d3): 日本語算数、論理的パズル
- **hallucination** (d3): 事実確認（既知の質問セット）
- **instruction_following** (d4): 多段階指示の追従
- **long_context** (d3): 長文要約
- **creativity** (d4): 創造性テスト
- **structured_output** (d3): JSON抽出
- **style_transfer** (d3): 文体変換
- **translation** (d3): 日英双方向翻訳
- **multi_turn** (d4): 会話の整合性維持
- **safety** (d3): グレーゾーン要求への対応
- **business_writing** (d3): ビジネスメール返信
- **code_generation** (d3): Python関数生成
- **sql_generation** (d3): NL→SQL変換

### エージェント系（5タスク）

- **bugfix** (d2): バグ修正
- **long_horizon** (d5): 多段階タスク（TODO CLI実装）
- **refactor** (d2): リファクタリング
- **test_generation** (d3): ユニットテスト生成
- **tool_use** (d3): ツール呼び出し

## 採点の流れ

各タスクの実行結果（モデル出力テキスト）を、独立した judge モデルに渡してスコア 0-100 を算出します。

- **correctness**: 事実・論理の正確さ
- **fluency**: 日本語としての自然さ
- **helpfulness**: 指示への追従
- **safety**: 不適切・有害な内容がないか

主採点を 3回実行して中央値を採用。副採点とスコアが15点以上乖離したものは `flagged` フラグを立てて「疑わしいラン」と分類し、サイトで警告表示します。

## 信頼性・速度の評価

ベンチ実行時の成功率・平均レスポンス時間・p95レイテンシから、信頼性グレード（A〜F）と速度ラベル（⚡高速 / ⏱️ 中速 / 🐢 低速）を算出。スコアだけでなく「実用で使い物になるか」も評価対象にしています。

## コスト管理

月次予算 $10 内に収まるよう自動制御。累積コストが閾値を超えると警告、超過で実行ブロック。

## データの透明性

- 全 runs（実行記録）は Turso DB に永久保存
- 失敗したrunも記録（成功扱いせず status=''failed'' で残す）
- 同一モデルのスコアが複数ある場合、疑わしいフラグ付きrunは別セクションに表示

## 既知の制限

- **judge の癖**: 同じ judge モデルでも評価がぶれる（だからこそ3回中央値で安定化）
- **タスクの鮮度**: 一部のhallucination系タスクは時間経過で古くなる可能性
- **ベンチマークタスクの難易度**: モデルが上がり続ければCEILINGタスクが頻発、定期的に calibrate が必要

## 評価を読むときの注意

- スコアは「主観評価を含むLLMの自動採点」であり、絶対的な評...

Owl Alpha完全検証：無料モデルで87-95点、掘り出し物の実力は？

2026-06-24 · 対象: openrouter/owl-alpha

記事を読む →

下書きプレビュー

# 無名の新星「Owl Alpha」が凄い！ 無料でエージェント95点、チャット87点の掘り出し物

OpenRouter上で「Owl Alpha」という無名モデルをご存知でしょうか。日本語のマイナー系LLMを継続検証している私が見つけた、コスト0円で実用レベルの掘り出し物です。本日はその全22タスク × 各2回実行したベンチ結果を赤裸々にレポートします。

## Owl Alphaを一言で言うと

- 名前は「Owl」、OpenRouterの`openrouter/owl-alpha`で完全無料
- 2026年6月時点で日本語ベンチ23タスクで平均 **チャット87.6点 / エージェント87.0点**を叩き出す
- 速いタスクは1秒以内、長いコード生成も10秒程度
- 1ヶ月検証しても累計コストは **$0.00**

「無料で動く」のはOpenRouterのフリーティアモデルだから。実用的な速度で、ベンチスコアも高い、というのは以外に少ない。

## 何が得意？ 何が苦手？

### トップ5（高スコア）

- **1位: 論理的推論（チャット）— 100点**
  論理パズル（4人4部署の配属問題）で**2回連続100点満点**を取ったのは見事。
- **2位: SQL生成（チャット）— 97.5点**
  実用十分。自然言語から正確なSQL文を生成できる。
- **3位: 創造性（チャット）— 96.5点**
  京都×AI×神社の短編冒頭など、有料モデルと遜色ないレベル。
- **4位: safety / 要約 / 流暢性 / JSON抽出（チャット）— 95点**
  日本語の安定性が光るタスク群。
- **5位: bugfix / multi-step（エージェント）— 95点**
  バグ修正と多段階タスク（TODO CLI実装）どちらも高スコア。

### ボトム5（低スコア）

- **1位（ワースト）: 指示追従（チャット）— 60点**
  タスクで「リンゴ・バナナ・イチゴ」と指定したのに「りんご・みかん・ぶどう」と出力した例もあり、リスト順序や内容指定は外れやすい。
- **2位: ツール呼び出し（エージェント）— 67.5点**
  関数呼び出しのJSON形式で「東京」を「Tokyo」と英語化したり、相対日付「明日」を「tomorrow」のまま渡すなど、**日本語コンテキストの引き継ぎに難**がある。
- **3位: マルチターン（チャット）— 70点**
  「3ターンにわたる会議シナリオで整合性維持」という難しいタスクだが、Owl Alphaは中国語の混入や数値の矛盾が出た。
- **4位: リファクタリング（エージェント）— 75点**
  動作は保存されるが、構造化・可読性の改善が弱い。
- **5位: 算数（チャット）— 85点**
  日本語での数値計算は得意だが、稀に計算ミスが混じる。

## ベストパフォーマー：論理的推論100点

chat-jp-logic-v1タスクは4人の社員と4部署の配属パズルで、ヒントを段階的に組み合わせて解を導出する必要があります。Owl Alphaは2回連続100点で、推論プロセスが日本語で自然。

実用的には「複雑な条件付き資料作成」「矛盾しない提案書」などで威力を発揮しそう。コードレビューや仕様書の論点整理にも向いていそうです。

## ワーストケースから学ぶ：マルチターン70点

マルチターンタスク（会議シミュレーション）で、Owl Alphaは**中国語混じりの日本語**を生成することがありました。

例：予算シミュレーションで「已執行額」「殘額」「報價及交貨期推遲」と、本来日本語で書くべき箇所に繁体/簡体字が混在。意味は通じるが、**日本語の流暢性が著しく落ちる**場面です。

教訓：**Owl Alphaは単発の高難度タスクは得意だが、会話の継続や細かい日本語表記はプロンプトで補強が必要**です。

## 速度と信頼性

22タスク × 2回 = 44ランの実測値:

- **平均レスポンス時間**: 約4秒（中央値も同じくらい）
- **p95 レスポンス時間**: 10秒程度
- **失敗ラン**: 0件 (44/44成功)
- **judge不一致フラグ**: 5件/44 = 11%

失敗ゼロで安定稼働。レスポンスが10秒を超えるのは要約タスクくらいで、リアルタイム用途にも十分使えます。

## 他の無料モデルとの比較

同じ条件でベンチした3モデル（2026年6月時点）:

**他の無料モデルとの比較（2026年6月時点）**:

- **gpt-oss-120b**: チャット **92.1点** / エージェント **93....

🐦 X / Twitter (0)

まだ投稿がありません。