第3章: 生成AIの仕組み — Transformer・ハルシネーション
この章を読むと: ChatGPTやClaudeがなぜ「賢そうに見える」のか、その心臓部であるTransformerの仕組みがわかります。そして「なぜ嘘をつくのか」(ハルシネーション)の原因と対策も理解できます。
この技術を一言で言うと
「インターネット全体を圧縮して記憶した、超高速の穴埋め問題マシン」
生成AIは「考えている」のではありません。膨大なテキストから学んだパターンを使って、「次に来る可能性が最も高い言葉」を猛烈なスピードで選び続けているだけです。
1. 生成AIの本質 — 「次の単語の予測」
生成AIがやっていること
生成AIの本質は、驚くほどシンプルです。
入力: 「日本の首都は」
↓
AIの処理: 「日本の首都は」の次に来る単語として
最も確率が高い単語を予測
↓
出力: 「東京」(確率 98.7%)
↓
繰り返し: 「東京」の次に来る単語を予測...「です」
↓
最終出力: 「日本の首都は東京です」
やっていることは、「次にくる単語の予測」の繰り返し。
「考えて答えている」のではなく、**「統計的に最もありそうな文字列を出力している」**のです。これが、もっともらしい嘘をつく根本的な理由です。
スマホの予測変換のアナロジー
スマホで「お」と入力すると「おはよう」と候補が出ますよね。生成AIはこれの超高性能版です。
| スマホ予測変換 | 生成AI |
|---|---|
| 直前の数単語だけ参照 | 数千〜数万単語を同時に参照 |
| 頻度ベースの単純統計 | 数千億のパラメータで学習した確率分布 |
| 候補を提示するだけ | 自動で次々と単語を選んで文章を生成 |
2. Transformer — 生成AIの心臓部
なぜTransformerが重要なのか
2017年にGoogleの研究チームが「Attention Is All You Need」という論文で発表したTransformerは、現在のすべての主要生成AIの基盤技術です。ChatGPT、Claude、Gemini、DeepSeek — すべてTransformerの上に構築されています。
Transformerが解決した問題
Transformer以前のAI(RNNやLSTM)は、文章を先頭から1単語ずつ順番に処理していました。
従来のAI(RNN):
「私」→「は」→「東京」→「に」→「住んで」→「いる」
↑ ↑ ↑ ↑ ↑ ↑
順番に1つずつ処理(遅い)
最初の単語を処理するころには最後の単語を忘れている
Transformerは、文章全体を同時に処理できます。
Transformer:
「私」「は」「東京」「に」「住んで」「いる」
↑ ↑ ↑ ↑ ↑ ↑
全単語を同時に処理(速い)
全体の文脈を一度に把握
Attention(注意)機構 — 核心の仕組み
Transformerの最も重要な仕組みが**Self-Attention(自己注意)**です。
直感的な説明
文章の中で、どの単語がどの単語と関係が深いかを自動で見つける仕組みです。
「私はパリに住んでいる。そこは美しい。」
Self-Attention が発見する関係:
「そこ」 ←─── 強い関連 ───→ 「パリ」
「美しい」 ←── やや関連 ──→ 「パリ」
「私」 ←──── 弱い関連 ────→ 「住んでいる」
人間は「そこ=パリ」だと自然にわかりますが、コンピュータにとってはこれが難問でした。Attentionは、文中の全単語ペアの関連度を計算することで、距離に関係なく文脈を正確に理解します。
図書館の司書のアナロジー
あなた(入力文): 「生成AIのハルシネーション対策を教えて」
従来のAI(RNN):
→ 本棚を端から順番に見ていく
→ 途中で最初に探していた本を忘れる
→ 時間がかかる
Transformer(Self-Attention):
→ 全ての本棚を同時にスキャン
→ 「生成AI」「ハルシネーション」「対策」に関連する本を一度に特定
→ 関連度の高い本だけを集めて即座に回答
Multi-Head Attention — 複数の視点で同時に読む
Self-Attentionを**複数の「ヘッド」**で並列実行するのがMulti-Head Attentionです。
ヘッド1: 文法的な関係を分析(「主語-動詞」の対応)
ヘッド2: 意味的な関係を分析(「パリ-美しい」の関連)
ヘッド3: 指示関係を分析(「そこ=パリ」の特定)
ヘッド4: 時制の関係を分析(「住んでいる」=現在進行形)
↓
すべての視点を統合 → より正確な文脈理解
人間も本を読むとき、「文法」「意味」「行間」「前後関係」を無意識に同時に処理しています。Multi-Head Attentionはこれをコンピュータで再現した仕組みです。
3. LLMの学習プロセス — 3つのステップ
ChatGPTやClaudeのような大規模言語モデル(LLM)は、3つのステップで作られています。
ステップ1: 事前学習(Pre-training)— 世界の知識を圧縮する
インターネット上の膨大なテキスト(数兆語)を読み込み、「次の単語を予測する」タスクを繰り返して学習します。
学習データ: Web上のテキスト数兆語
↓
タスク: 「東京は日本の ___」の空欄を予測
↓
正解: 「首都」
↓
× 数兆回繰り返し
↓
「言語のパターン」を数千億個のパラメータに圧縮
この段階で、文法・事実知識・論理推論・プログラミングなど、あらゆる能力の原型が副産物として生まれます。驚くべきことに、「次の単語を予測する」という単純なタスクだけで、これほど多様な能力が獲得されるのです。
ステップ2: ファインチューニング(Fine-tuning)— 「役に立つ」存在にする
事前学習だけでは、AIは「百科事典を丸暗記した人」のようなもので、質問に適切に答える能力がありません。ファインチューニングで会話の仕方を教えます。
入力: 「日本の人口を教えてください」
↓
人間が書いた模範回答で学習
↓
AIが「質問→回答」のパターンを習得
LoRAとQLoRA — 効率的なファインチューニング
フルモデルの全パラメータを更新するのは膨大なコストがかかります。LoRA(Low-Rank Adaptation)は、パラメータの一部だけを効率的に更新する手法で、2025年のファインチューニングの主流です。さらにQLoRAは、モデルを4ビットに圧縮(量子化)した状態でLoRAを適用し、一般的なGPUでも70Bクラスのモデルを調整可能にしました。
ステップ3: RLHF — 「安全で人間好みの」回答にする
**RLHF(Reinforcement Learning from Human Feedback)**は、人間の評価を使ってAIの回答品質を改善する強化学習手法です。
AIが2つの回答を生成
↓
人間が比較「回答Aの方が良い」
↓
この評価を「報酬」として強化学習
↓
× 何万回繰り返し
↓
人間が好む回答を出すAIが完成
ChatGPTが「礼儀正しく」「安全に」回答するのは、RLHFで「人間が好む回答パターン」を学習したからです。
3ステップの比喩:
- 事前学習 = 大量の本を読んで知識を蓄える(知識の獲得)
- ファインチューニング = 仕事のやり方を教わる(スキルの習得)
- RLHF = 上司や顧客からフィードバックを受けて改善する(品質の向上)
4. トークン — AIが「言葉」を扱う仕組み
トークンとは
AIは人間の言葉をそのまま理解しているわけではありません。テキストを「トークン」と呼ばれる小さな単位に分割して、数値として処理しています。
英語: "unhappiness" → ["un", "happi", "ness"](3トークン)
日本語: "人工知能" → ["人工", "知", "能"](3トークン)
BPE(Byte Pair Encoding)
最も一般的なトークン化手法がBPEです。頻出する文字の組み合わせをまとめて1つのトークンにします。
よく出る組み合わせ: "the" → 1トークン
珍しい組み合わせ: "pneumonia" → ["pne", "um", "onia"](3トークン)
日本語の特殊性
日本語は英語の約2〜3倍のトークンを消費します。これは、GPTやClaudeの語彙が英語中心に設計されているため、日本語の文字がより多くのトークンに分割されるからです。
つまり、同じ内容でも日本語のほうがAPI利用料が高くなります。
5. 埋め込み(Embedding)— 意味を数値化する
言葉の「距離」を測る
トークンに分割された後、各トークンは高次元のベクトル(数百〜数千個の数値の列)に変換されます。これが「埋め込み(Embedding)」です。
「王様」 → [0.12, -0.34, 0.89, 0.23, ...](数千個の数値)
「女王」 → [0.15, -0.31, 0.85, 0.45, ...]
「りんご」 → [0.67, 0.11, -0.42, 0.09, ...]
意味が近い言葉は、ベクトル空間で近い位置に配置されます。
「王様」と「女王」 → 距離が近い(意味が似ている)
「王様」と「りんご」 → 距離が遠い(意味が遠い)
有名な「王様の方程式」
「王様」 - 「男」 + 「女」 ≒ 「女王」
AIは言葉を数値空間にマッピングすることで、「王様と女王の関係は、男と女の関係に近い」という意味的な関係を捉えています。
なぜ重要か
この技術はRAG(検索拡張生成)の基盤です。「AIと人工知能の違い」と質問されたとき、「AI」という文字列ではなく**「AIの意味」**に近い文書を検索できるのは、Embeddingのおかげです。
6. ハルシネーション — なぜAIは「嘘」をつくのか
ハルシネーション(幻覚)とは
AIが事実に基づかない情報を、あたかも正確であるかのように自信を持って出力する現象です。
質問: 「田中太郎教授の2024年の論文は?」
↓
AIの処理: 「教授」「論文」「2024年」のパターンから
「それらしい」タイトルと内容を生成
↓
出力: 存在しない論文を自信満々に回答
なぜ起きるのか — 3つの根本原因
原因① 確率的生成の限界
生成AIは「最も確率の高い次の単語」を選んでいるだけで、内容の正誤を検証していません。
「ノーベル物理学賞2024年の受賞者は」
↓
AI: 「~です」と確率的に生成
↓
問題: 学習データのカットオフ後の情報は知らない
→ 「それらしい名前」を生成してしまう
原因② 「知らない」と言えない
AIは「知っている」と「知らない」を区別する仕組みを持っていません。学習データに含まれない情報でも、パターンから「それらしい」回答を生成してしまいます。
人間に例えると: 昔の記憶が不確かなのに自信満々に話してしまう人。AIも同じで、「記憶にないけど、こう言えば自然だろう」と無自覚に捏造します。
原因③ 学習データの偏り
学習データに誤った情報が含まれている場合、AIはそれを「正しい知識」として学んでしまいます。
2026年のハルシネーション対策
ハルシネーションを完全に防ぐことは現時点で不可能ですが、大幅に軽減する技術が進化しています。
| 対策 | 仕組み | 効果 |
|---|---|---|
| RAG(検索拡張生成) | 外部データベースをリアルタイムで検索して回答生成 | 企業導入で最も主流。事実誤認を根本的に抑制 |
| 推論モデル(o1/o3系) | 答える前に「考えるステップ」を明示化 | GPT-5の思考モードでハルシネーション80%削減 |
| Constitutional AI | AIが「自己批判・自己修正」を行う原則セット | 有害なハルシネーションを85%削減(Anthropic) |
| 多層防御 | RAG + RLHF + ガードレールの複合適用 | スタンフォード研究で96%削減を達成 |
| マルチエージェント検証 | 複数のAIが互いの回答を検証 | 2025年から実用化開始 |
現実的な付き合い方
| ユーザーがすべきこと | 理由 |
|---|---|
| 数値・固有名詞は必ずファクトチェック | AIが最も間違えやすい部分 |
| 「出典を示して」と指示する | ただし出典自体が幻覚の場合もあるので確認必須 |
| 重要な判断にはAIを「唯一の情報源」にしない | あくまで参考意見の一つとして扱う |
| RAG対応ツールを活用する | 自社データに基づく回答で精度向上 |
7. 2026年の主要LLMモデル比較
モデル一覧
| モデル | 提供元 | 特徴 | 得意なこと |
|---|---|---|---|
| GPT-5 / GPT-4o | OpenAI | 市場シェア最大。マルチモーダル対応 | 汎用タスク全般、ブラウジング |
| Claude 4(Opus / Sonnet) | Anthropic | Constitutional AIで安全性を設計 | コーディング、長文分析、日本語 |
| Gemini 2.5 Pro | Google検索と直結。設計段階からマルチモーダル | リサーチ、動画理解、Google連携 | |
| DeepSeek R1 / V4 | DeepSeek(中国) | GPT-4同等性能を1/18以下のコストで実現 | コスト重視のアプリケーション |
| Llama 4 | Meta | オープンソース。自社サーバーで運用可能 | カスタマイズ、プライバシー重視 |
市場シェアの変動
OpenAIの市場シェアは2025年の50%から2026年には**34%**に低下。Anthropic、Google、オープンソース(Llama、DeepSeek)が急速にシェアを拡大しています。
オープンソース vs クローズドソース
| 比較軸 | クローズドソース | オープンソース |
|---|---|---|
| 代表例 | GPT-5、Claude 4 | Llama 4、DeepSeek V4 |
| 性能 | 最高水準 | クローズドに接近(差は5-10%以内に) |
| コスト | API課金(高い) | 自社運用可能(低い) |
| カスタマイズ | 限定的 | 自由にファインチューニング可能 |
| セキュリティ | データが外部に送信される | 完全にローカルで運用可能 |
8. 最先端技術 — Transformerの「次」
Mixture of Experts(MoE)— 専門家チーム方式
アナロジー
100人の専門家がいる会社を想像してください。質問の種類によって、呼ぶ専門家を変えます。数学の問題なら数学チームだけが動き、歴史の質問なら歴史チームだけが動く。全員が動かないから、知識量は巨大なのに、計算コストは小さい。
入力: 「日本の歴史について」
↓
ルーター(振り分け役): 「歴史チームを起動」
↓
歴史チーム(256人中の8人だけ)が処理
↓
出力: 歴史に関する回答
実際のモデル
| モデル | 総パラメータ | 実際に使うパラメータ | 効果 |
|---|---|---|---|
| DeepSeek V4 | 6,850億 | 約370億 | 全体の5%しか使わずGPT-4と同等性能 |
| Llama 4 Maverick | 非公開 | — | 128の専門家チーム |
| Gemma 4 | 260億 | 38億 | 85%のパラメータを休ませている |
DeepSeek R1の衝撃: MoEアーキテクチャにより、API価格を競合の1/27に設定。「AIは巨額投資しないと作れない」という常識を覆しました。
State Space Models(SSM / Mamba)— 要約しながら読む秘書
アナロジー
Transformerが「全員のメモを全部読み返してから返答する秘書」なら、Mambaは「過去の会話を要約しながら随時更新する秘書」です。
| 比較 | Transformer | Mamba(SSM) |
|---|---|---|
| 処理方法 | 全文を同時に処理 | 要約しながら逐次処理 |
| メモリ使用量 | 文章が長いほど2乗で増加 | 文章長に関係なく一定(線形) |
| 処理速度 | 長文で遅くなる | 長文でも速い |
| 精度 | 高い | Transformerに接近中 |
2026年の実態: Mambaは学術的には有力ですが、Transformerを大規模に置換するには至っていません。商用モデルの多くはTransformer(MoE強化版)が主流です。ただし、MambaとTransformerのハイブリッド型(AI21 LabsのJamba等)が登場し始めています。
推論モデル — 「即答型」から「考える型」へ
2024年末に登場した推論モデル(Reasoning Model)は、答える前に内部で思考プロセスを実行します。
| 種類 | 動き方 | 得意なこと |
|---|---|---|
| 従来型(GPT-4o等) | 入力 → 即答 | 日常会話、要約、文章生成 |
| 推論型(o1, o3, DeepSeek R1) | 入力 → 内部で考える → 答え | 数学、論理問題、複雑な分析 |
従来型:
「3の27乗は?」→ 即座に(しかし間違える可能性がある)
推論型:
「3の27乗は?」→ ステップ1: 3の3乗=27 → ステップ2: 27の3乗=19683 → ...
→ 内部で段階的に計算 → より正確な回答
電卓に例えると: 従来型は「暗算が超速い人」。推論型は「紙に書きながらじっくり考える人」。後者のほうが正確だが時間がかかります。
9. AIをいい子にする技術 — アライメント
生成AIが有害な回答をしないようにする技術を「アライメント(Alignment)」と呼びます。
| 技術 | アナロジー | 使っている企業 |
|---|---|---|
| RLHF | 人事評価で新人を育てる。人間が「良い回答」「悪い回答」を採点 | OpenAI, Anthropic, Google |
| Constitutional AI | AIに「憲法」を渡し、自己批判・改善させる。上司なしで倫理を守る | Anthropic(Claude) |
| DPO | 「A回答よりB回答が良い」の比較データから効率的に学習 | 2025年から急速普及 |
Constitutional AI(Anthropicの独自技術)
Anthropicが開発したClaudeの基盤技術。AIに**原則集("憲法")**を与え、自分自身の回答を批判・修正させる仕組みです。
ステップ1: AIが回答を生成
ステップ2: AIが自身の回答を「原則」に照らして批判
ステップ3: 批判に基づいて回答を修正
ステップ4: 修正された回答を出力
人間がすべての回答をチェックするRLHFと比べて、スケーラブル(大量の回答を自動的に改善できる)という利点があります。
10. マルチモーダル — テキスト以外も扱えるAI
2025年から、生成AIは「テキストだけ」の世界を超えました。
従来: テキスト → テキスト
現在: テキスト ─┐
画像 ─┤→ 統合AI → テキスト / 画像 / 音声 / 動画
音声 ─┤
動画 ─┘
主要なマルチモーダルモデル
| モデル | テキスト | 画像入力 | 画像生成 | 音声 | 動画入力 |
|---|---|---|---|---|---|
| GPT-4o | ✅ | ✅ | ✅ | ✅(リアルタイム) | ✅ |
| Claude 4 | ✅ | ✅ | — | — | — |
| Gemini 2.5 | ✅ | ✅ | ✅ | ✅ | ✅(長時間対応) |
具体例: 「スマホのカメラで料理を撮影 → AIが栄養素を分析 → 食事アドバイスを音声で回答」が2026年には当たり前になりつつあります。
11. 生成AIの限界を知る
技術の理解と同じくらい重要なのが、限界の理解です。
生成AIが「できない」こと(2026年時点)
| できないこと | 理由 |
|---|---|
| 最新情報の回答 | 学習データのカットオフ以降の出来事は知らない |
| 事実の検証 | 「正しいか」ではなく「それらしいか」で出力している |
| 論理的な計算 | 文字パターンベースなので、複雑な計算は苦手 |
| 因果関係の理解 | 相関は見つけるが、「なぜ」は理解していない |
| 自分の限界を認識 | 「知らない」と適切に判断できない |
生成AIと人間の「知能」の違い
人間の知能:
体験 → 理解 → 判断 → 行動 → 学習(フィードバックループ)
+ 感情 + 身体感覚 + 社会的文脈 + 意味の把握
生成AIの「知能」:
パターン認識 → 確率的出力(一方通行)
感情なし / 理解なし / 意味の把握なし
忘れてはいけないこと: 生成AIは「知能をシミュレートしている」のであって、「知能を持っている」わけではありません。この区別を理解することが、AIを正しく活用する第一歩です。
この章のまとめ(3ポイント)
- 生成AIの本質は「次の単語の予測」。Transformerのself-Attention機構が、文脈全体を同時に把握して予測精度を飛躍的に高めた
- ハルシネーションは構造的な問題。完全防止は不可能だが、RAG・推論モデル・Constitutional AIの組み合わせで96%まで削減可能
- MoEや推論モデルが次のフロンティア。より少ない計算資源でより高い性能を実現する技術が、AIの民主化を加速している
もっと知りたい人へ
- 「Attention Is All You Need」(Google, 2017年): Transformerの原論文。技術的だが、図を見るだけでも仕組みのイメージが掴める
- Anthropic「Claude's Character」: Constitutional AIの設計思想をAnthropicが公式に解説した記事
- 3Blue1Brown「But what is a GPT?」(YouTube): 数学的な厳密さを保ちながら、ビジュアルでTransformerの仕組みを解説した動画シリーズ