第3章: 生成AIの仕組み — Transformer・ハルシネーション

この章を読むと: ChatGPTやClaudeがなぜ「賢そうに見える」のか、その心臓部であるTransformerの仕組みがわかります。そして「なぜ嘘をつくのか」（ハルシネーション）の原因と対策も理解できます。

この技術を一言で言うと

「インターネット全体を圧縮して記憶した、超高速の穴埋め問題マシン」

生成AIは「考えている」のではありません。膨大なテキストから学んだパターンを使って、「次に来る可能性が最も高い言葉」を猛烈なスピードで選び続けているだけです。

1. 生成AIの本質 — 「次の単語の予測」

生成AIがやっていること

生成AIの本質は、驚くほどシンプルです。

入力: 「日本の首都は」
  ↓
AIの処理: 「日本の首都は」の次に来る単語として
          最も確率が高い単語を予測
  ↓
出力: 「東京」（確率 98.7%）
  ↓
繰り返し: 「東京」の次に来る単語を予測...「です」
  ↓
最終出力: 「日本の首都は東京です」

やっていることは、「次にくる単語の予測」の繰り返し。

「考えて答えている」のではなく、**「統計的に最もありそうな文字列を出力している」**のです。これが、もっともらしい嘘をつく根本的な理由です。

スマホの予測変換のアナロジー

スマホで「お」と入力すると「おはよう」と候補が出ますよね。生成AIはこれの超高性能版です。

スマホ予測変換	生成AI
直前の数単語だけ参照	数千〜数万単語を同時に参照
頻度ベースの単純統計	数千億のパラメータで学習した確率分布
候補を提示するだけ	自動で次々と単語を選んで文章を生成

2. Transformer — 生成AIの心臓部

なぜTransformerが重要なのか

2017年にGoogleの研究チームが「Attention Is All You Need」という論文で発表したTransformerは、現在のすべての主要生成AIの基盤技術です。ChatGPT、Claude、Gemini、DeepSeek — すべてTransformerの上に構築されています。

Transformerが解決した問題

Transformer以前のAI（RNNやLSTM）は、文章を先頭から1単語ずつ順番に処理していました。

従来のAI（RNN）:
「私」→「は」→「東京」→「に」→「住んで」→「いる」
  ↑      ↑      ↑      ↑       ↑         ↑
  順番に1つずつ処理（遅い）
  最初の単語を処理するころには最後の単語を忘れている

Transformerは、文章全体を同時に処理できます。

Transformer:
「私」「は」「東京」「に」「住んで」「いる」
  ↑     ↑      ↑     ↑       ↑        ↑
  全単語を同時に処理（速い）
  全体の文脈を一度に把握

Attention（注意）機構 — 核心の仕組み

Transformerの最も重要な仕組みが**Self-Attention（自己注意）**です。

直感的な説明

文章の中で、どの単語がどの単語と関係が深いかを自動で見つける仕組みです。

「私はパリに住んでいる。そこは美しい。」

Self-Attention が発見する関係:
  「そこ」 ←─── 強い関連 ───→ 「パリ」
  「美しい」 ←── やや関連 ──→ 「パリ」
  「私」 ←──── 弱い関連 ────→ 「住んでいる」

人間は「そこ＝パリ」だと自然にわかりますが、コンピュータにとってはこれが難問でした。Attentionは、文中の全単語ペアの関連度を計算することで、距離に関係なく文脈を正確に理解します。

図書館の司書のアナロジー

あなた（入力文）: 「生成AIのハルシネーション対策を教えて」

従来のAI（RNN）:
  → 本棚を端から順番に見ていく
  → 途中で最初に探していた本を忘れる
  → 時間がかかる

Transformer（Self-Attention）:
  → 全ての本棚を同時にスキャン
  → 「生成AI」「ハルシネーション」「対策」に関連する本を一度に特定
  → 関連度の高い本だけを集めて即座に回答

Multi-Head Attention — 複数の視点で同時に読む

Self-Attentionを**複数の「ヘッド」**で並列実行するのがMulti-Head Attentionです。

ヘッド1: 文法的な関係を分析（「主語-動詞」の対応）
ヘッド2: 意味的な関係を分析（「パリ-美しい」の関連）
ヘッド3: 指示関係を分析（「そこ＝パリ」の特定）
ヘッド4: 時制の関係を分析（「住んでいる」=現在進行形）
  ↓
すべての視点を統合 → より正確な文脈理解

人間も本を読むとき、「文法」「意味」「行間」「前後関係」を無意識に同時に処理しています。Multi-Head Attentionはこれをコンピュータで再現した仕組みです。

3. LLMの学習プロセス — 3つのステップ

ChatGPTやClaudeのような大規模言語モデル（LLM）は、3つのステップで作られています。

ステップ1: 事前学習（Pre-training）— 世界の知識を圧縮する

インターネット上の膨大なテキスト（数兆語）を読み込み、「次の単語を予測する」タスクを繰り返して学習します。

学習データ: Web上のテキスト数兆語
  ↓
タスク: 「東京は日本の ___」の空欄を予測
  ↓
正解: 「首都」
  ↓
× 数兆回繰り返し
  ↓
「言語のパターン」を数千億個のパラメータに圧縮

この段階で、文法・事実知識・論理推論・プログラミングなど、あらゆる能力の原型が副産物として生まれます。驚くべきことに、「次の単語を予測する」という単純なタスクだけで、これほど多様な能力が獲得されるのです。

ステップ2: ファインチューニング（Fine-tuning）— 「役に立つ」存在にする

事前学習だけでは、AIは「百科事典を丸暗記した人」のようなもので、質問に適切に答える能力がありません。ファインチューニングで会話の仕方を教えます。

入力: 「日本の人口を教えてください」
  ↓
人間が書いた模範回答で学習
  ↓
AIが「質問→回答」のパターンを習得

LoRAとQLoRA — 効率的なファインチューニング

フルモデルの全パラメータを更新するのは膨大なコストがかかります。LoRA（Low-Rank Adaptation）は、パラメータの一部だけを効率的に更新する手法で、2025年のファインチューニングの主流です。さらにQLoRAは、モデルを4ビットに圧縮（量子化）した状態でLoRAを適用し、一般的なGPUでも70Bクラスのモデルを調整可能にしました。

ステップ3: RLHF — 「安全で人間好みの」回答にする

**RLHF（Reinforcement Learning from Human Feedback）**は、人間の評価を使ってAIの回答品質を改善する強化学習手法です。

AIが2つの回答を生成
  ↓
人間が比較「回答Aの方が良い」
  ↓
この評価を「報酬」として強化学習
  ↓
× 何万回繰り返し
  ↓
人間が好む回答を出すAIが完成

ChatGPTが「礼儀正しく」「安全に」回答するのは、RLHFで「人間が好む回答パターン」を学習したからです。

3ステップの比喩:

事前学習 = 大量の本を読んで知識を蓄える（知識の獲得）

ファインチューニング = 仕事のやり方を教わる（スキルの習得）

RLHF = 上司や顧客からフィードバックを受けて改善する（品質の向上）

4. トークン — AIが「言葉」を扱う仕組み

トークンとは

AIは人間の言葉をそのまま理解しているわけではありません。テキストを「トークン」と呼ばれる小さな単位に分割して、数値として処理しています。

英語: "unhappiness" → ["un", "happi", "ness"]（3トークン）
日本語: "人工知能" → ["人工", "知", "能"]（3トークン）

BPE（Byte Pair Encoding）

最も一般的なトークン化手法がBPEです。頻出する文字の組み合わせをまとめて1つのトークンにします。

よく出る組み合わせ: "the" → 1トークン
珍しい組み合わせ: "pneumonia" → ["pne", "um", "onia"]（3トークン）

日本語の特殊性

日本語は英語の約2〜3倍のトークンを消費します。これは、GPTやClaudeの語彙が英語中心に設計されているため、日本語の文字がより多くのトークンに分割されるからです。

つまり、同じ内容でも日本語のほうがAPI利用料が高くなります。

5. 埋め込み（Embedding）— 意味を数値化する

言葉の「距離」を測る

トークンに分割された後、各トークンは高次元のベクトル（数百〜数千個の数値の列）に変換されます。これが「埋め込み（Embedding）」です。

「王様」 → [0.12, -0.34, 0.89, 0.23, ...]（数千個の数値）
「女王」 → [0.15, -0.31, 0.85, 0.45, ...]
「りんご」 → [0.67, 0.11, -0.42, 0.09, ...]

意味が近い言葉は、ベクトル空間で近い位置に配置されます。

「王様」と「女王」 → 距離が近い（意味が似ている）
「王様」と「りんご」 → 距離が遠い（意味が遠い）

有名な「王様の方程式」

「王様」 - 「男」 + 「女」 ≒ 「女王」

AIは言葉を数値空間にマッピングすることで、「王様と女王の関係は、男と女の関係に近い」という意味的な関係を捉えています。

なぜ重要か

この技術はRAG（検索拡張生成）の基盤です。「AIと人工知能の違い」と質問されたとき、「AI」という文字列ではなく**「AIの意味」**に近い文書を検索できるのは、Embeddingのおかげです。

6. ハルシネーション — なぜAIは「嘘」をつくのか

ハルシネーション（幻覚）とは

AIが事実に基づかない情報を、あたかも正確であるかのように自信を持って出力する現象です。

質問: 「田中太郎教授の2024年の論文は？」
  ↓
AIの処理: 「教授」「論文」「2024年」のパターンから
          「それらしい」タイトルと内容を生成
  ↓
出力: 存在しない論文を自信満々に回答

なぜ起きるのか — 3つの根本原因

原因① 確率的生成の限界

生成AIは「最も確率の高い次の単語」を選んでいるだけで、内容の正誤を検証していません。

「ノーベル物理学賞2024年の受賞者は」
  ↓
AI: 「～です」と確率的に生成
  ↓
問題: 学習データのカットオフ後の情報は知らない
  → 「それらしい名前」を生成してしまう

原因② 「知らない」と言えない

AIは「知っている」と「知らない」を区別する仕組みを持っていません。学習データに含まれない情報でも、パターンから「それらしい」回答を生成してしまいます。

人間に例えると: 昔の記憶が不確かなのに自信満々に話してしまう人。AIも同じで、「記憶にないけど、こう言えば自然だろう」と無自覚に捏造します。

原因③ 学習データの偏り

学習データに誤った情報が含まれている場合、AIはそれを「正しい知識」として学んでしまいます。

2026年のハルシネーション対策

ハルシネーションを完全に防ぐことは現時点で不可能ですが、大幅に軽減する技術が進化しています。

対策	仕組み	効果
RAG（検索拡張生成）	外部データベースをリアルタイムで検索して回答生成	企業導入で最も主流。事実誤認を根本的に抑制
推論モデル（o1/o3系）	答える前に「考えるステップ」を明示化	GPT-5の思考モードでハルシネーション80%削減
Constitutional AI	AIが「自己批判・自己修正」を行う原則セット	有害なハルシネーションを85%削減（Anthropic）
多層防御	RAG + RLHF + ガードレールの複合適用	スタンフォード研究で96%削減を達成
マルチエージェント検証	複数のAIが互いの回答を検証	2025年から実用化開始

現実的な付き合い方

ユーザーがすべきこと	理由
数値・固有名詞は必ずファクトチェック	AIが最も間違えやすい部分
「出典を示して」と指示する	ただし出典自体が幻覚の場合もあるので確認必須
重要な判断にはAIを「唯一の情報源」にしない	あくまで参考意見の一つとして扱う
RAG対応ツールを活用する	自社データに基づく回答で精度向上

7. 2026年の主要LLMモデル比較

モデル一覧

モデル	提供元	特徴	得意なこと
GPT-5 / GPT-4o	OpenAI	市場シェア最大。マルチモーダル対応	汎用タスク全般、ブラウジング
Claude 4（Opus / Sonnet）	Anthropic	Constitutional AIで安全性を設計	コーディング、長文分析、日本語
Gemini 2.5 Pro	Google	Google検索と直結。設計段階からマルチモーダル	リサーチ、動画理解、Google連携
DeepSeek R1 / V4	DeepSeek（中国）	GPT-4同等性能を1/18以下のコストで実現	コスト重視のアプリケーション
Llama 4	Meta	オープンソース。自社サーバーで運用可能	カスタマイズ、プライバシー重視

市場シェアの変動

OpenAIの市場シェアは2025年の50%から2026年には**34%**に低下。Anthropic、Google、オープンソース（Llama、DeepSeek）が急速にシェアを拡大しています。

オープンソース vs クローズドソース

比較軸	クローズドソース	オープンソース
代表例	GPT-5、Claude 4	Llama 4、DeepSeek V4
性能	最高水準	クローズドに接近（差は5-10%以内に）
コスト	API課金（高い）	自社運用可能（低い）
カスタマイズ	限定的	自由にファインチューニング可能
セキュリティ	データが外部に送信される	完全にローカルで運用可能

8. 最先端技術 — Transformerの「次」

Mixture of Experts（MoE）— 専門家チーム方式

アナロジー

100人の専門家がいる会社を想像してください。質問の種類によって、呼ぶ専門家を変えます。数学の問題なら数学チームだけが動き、歴史の質問なら歴史チームだけが動く。全員が動かないから、知識量は巨大なのに、計算コストは小さい。

入力: 「日本の歴史について」
  ↓
ルーター（振り分け役）: 「歴史チームを起動」
  ↓
歴史チーム（256人中の8人だけ）が処理
  ↓
出力: 歴史に関する回答

実際のモデル

モデル	総パラメータ	実際に使うパラメータ	効果
DeepSeek V4	6,850億	約370億	全体の5%しか使わずGPT-4と同等性能
Llama 4 Maverick	非公開	—	128の専門家チーム
Gemma 4	260億	38億	85%のパラメータを休ませている

DeepSeek R1の衝撃: MoEアーキテクチャにより、API価格を競合の1/27に設定。「AIは巨額投資しないと作れない」という常識を覆しました。

State Space Models（SSM / Mamba）— 要約しながら読む秘書

アナロジー

Transformerが「全員のメモを全部読み返してから返答する秘書」なら、Mambaは「過去の会話を要約しながら随時更新する秘書」です。

比較	Transformer	Mamba（SSM）
処理方法	全文を同時に処理	要約しながら逐次処理
メモリ使用量	文章が長いほど2乗で増加	文章長に関係なく一定（線形）
処理速度	長文で遅くなる	長文でも速い
精度	高い	Transformerに接近中

2026年の実態: Mambaは学術的には有力ですが、Transformerを大規模に置換するには至っていません。商用モデルの多くはTransformer（MoE強化版）が主流です。ただし、MambaとTransformerのハイブリッド型（AI21 LabsのJamba等）が登場し始めています。

推論モデル — 「即答型」から「考える型」へ

2024年末に登場した推論モデル（Reasoning Model）は、答える前に内部で思考プロセスを実行します。

種類	動き方	得意なこと
従来型（GPT-4o等）	入力 → 即答	日常会話、要約、文章生成
推論型（o1, o3, DeepSeek R1）	入力 → 内部で考える → 答え	数学、論理問題、複雑な分析

従来型:
  「3の27乗は？」→ 即座に（しかし間違える可能性がある）

推論型:
  「3の27乗は？」→ ステップ1: 3の3乗=27 → ステップ2: 27の3乗=19683 → ...
  → 内部で段階的に計算 → より正確な回答

電卓に例えると: 従来型は「暗算が超速い人」。推論型は「紙に書きながらじっくり考える人」。後者のほうが正確だが時間がかかります。

9. AIをいい子にする技術 — アライメント

生成AIが有害な回答をしないようにする技術を「アライメント（Alignment）」と呼びます。

技術	アナロジー	使っている企業
RLHF	人事評価で新人を育てる。人間が「良い回答」「悪い回答」を採点	OpenAI, Anthropic, Google
Constitutional AI	AIに「憲法」を渡し、自己批判・改善させる。上司なしで倫理を守る	Anthropic（Claude）
DPO	「A回答よりB回答が良い」の比較データから効率的に学習	2025年から急速普及

Constitutional AI（Anthropicの独自技術）

Anthropicが開発したClaudeの基盤技術。AIに**原則集（"憲法"）**を与え、自分自身の回答を批判・修正させる仕組みです。

ステップ1: AIが回答を生成
ステップ2: AIが自身の回答を「原則」に照らして批判
ステップ3: 批判に基づいて回答を修正
ステップ4: 修正された回答を出力

人間がすべての回答をチェックするRLHFと比べて、スケーラブル（大量の回答を自動的に改善できる）という利点があります。

10. マルチモーダル — テキスト以外も扱えるAI

2025年から、生成AIは「テキストだけ」の世界を超えました。

従来: テキスト → テキスト

現在: テキスト ─┐
      画像   ─┤→ 統合AI → テキスト / 画像 / 音声 / 動画
      音声   ─┤
      動画   ─┘

主要なマルチモーダルモデル

モデル	テキスト	画像入力	画像生成	音声	動画入力
GPT-4o	✅	✅	✅	✅（リアルタイム）	✅
Claude 4	✅	✅	—	—	—
Gemini 2.5	✅	✅	✅	✅	✅（長時間対応）

具体例: 「スマホのカメラで料理を撮影 → AIが栄養素を分析 → 食事アドバイスを音声で回答」が2026年には当たり前になりつつあります。

11. 生成AIの限界を知る

技術の理解と同じくらい重要なのが、限界の理解です。

生成AIが「できない」こと（2026年時点）

できないこと	理由
最新情報の回答	学習データのカットオフ以降の出来事は知らない
事実の検証	「正しいか」ではなく「それらしいか」で出力している
論理的な計算	文字パターンベースなので、複雑な計算は苦手
因果関係の理解	相関は見つけるが、「なぜ」は理解していない
自分の限界を認識	「知らない」と適切に判断できない

生成AIと人間の「知能」の違い

人間の知能:
  体験 → 理解 → 判断 → 行動 → 学習（フィードバックループ）
  + 感情 + 身体感覚 + 社会的文脈 + 意味の把握

生成AIの「知能」:
  パターン認識 → 確率的出力（一方通行）
  感情なし / 理解なし / 意味の把握なし

忘れてはいけないこと: 生成AIは「知能をシミュレートしている」のであって、「知能を持っている」わけではありません。この区別を理解することが、AIを正しく活用する第一歩です。

この章のまとめ（3ポイント）

生成AIの本質は「次の単語の予測」。Transformerのself-Attention機構が、文脈全体を同時に把握して予測精度を飛躍的に高めた
ハルシネーションは構造的な問題。完全防止は不可能だが、RAG・推論モデル・Constitutional AIの組み合わせで96%まで削減可能
MoEや推論モデルが次のフロンティア。より少ない計算資源でより高い性能を実現する技術が、AIの民主化を加速している

もっと知りたい人へ

「Attention Is All You Need」（Google, 2017年）: Transformerの原論文。技術的だが、図を見るだけでも仕組みのイメージが掴める
Anthropic「Claude's Character」: Constitutional AIの設計思想をAnthropicが公式に解説した記事
3Blue1Brown「But what is a GPT?」（YouTube）: 数学的な厳密さを保ちながら、ビジュアルでTransformerの仕組みを解説した動画シリーズ