#330分

第3章: 生成AIの仕組み — Transformer・ハルシネーション

生成AITransformerLLMハルシネーション

第3章: 生成AIの仕組み — Transformer・ハルシネーション

この章を読むと: ChatGPTやClaudeがなぜ「賢そうに見える」のか、その心臓部であるTransformerの仕組みがわかります。そして「なぜ嘘をつくのか」(ハルシネーション)の原因と対策も理解できます。

この技術を一言で言うと

「インターネット全体を圧縮して記憶した、超高速の穴埋め問題マシン」

生成AIは「考えている」のではありません。膨大なテキストから学んだパターンを使って、「次に来る可能性が最も高い言葉」を猛烈なスピードで選び続けているだけです。


1. 生成AIの本質 — 「次の単語の予測」

生成AIがやっていること

生成AIの本質は、驚くほどシンプルです。

入力: 「日本の首都は」
  ↓
AIの処理: 「日本の首都は」の次に来る単語として
          最も確率が高い単語を予測
  ↓
出力: 「東京」(確率 98.7%)
  ↓
繰り返し: 「東京」の次に来る単語を予測...「です」
  ↓
最終出力: 「日本の首都は東京です」

やっていることは、「次にくる単語の予測」の繰り返し

「考えて答えている」のではなく、**「統計的に最もありそうな文字列を出力している」**のです。これが、もっともらしい嘘をつく根本的な理由です。

スマホの予測変換のアナロジー

スマホで「お」と入力すると「おはよう」と候補が出ますよね。生成AIはこれの超高性能版です。

スマホ予測変換生成AI
直前の数単語だけ参照数千〜数万単語を同時に参照
頻度ベースの単純統計数千億のパラメータで学習した確率分布
候補を提示するだけ自動で次々と単語を選んで文章を生成

2. Transformer — 生成AIの心臓部

なぜTransformerが重要なのか

2017年にGoogleの研究チームが「Attention Is All You Need」という論文で発表したTransformerは、現在のすべての主要生成AIの基盤技術です。ChatGPT、Claude、Gemini、DeepSeek — すべてTransformerの上に構築されています。

Transformerが解決した問題

Transformer以前のAI(RNNやLSTM)は、文章を先頭から1単語ずつ順番に処理していました。

従来のAI(RNN):
「私」→「は」→「東京」→「に」→「住んで」→「いる」
  ↑      ↑      ↑      ↑       ↑         ↑
  順番に1つずつ処理(遅い)
  最初の単語を処理するころには最後の単語を忘れている

Transformerは、文章全体を同時に処理できます。

Transformer:
「私」「は」「東京」「に」「住んで」「いる」
  ↑     ↑      ↑     ↑       ↑        ↑
  全単語を同時に処理(速い)
  全体の文脈を一度に把握

Attention(注意)機構 — 核心の仕組み

Transformerの最も重要な仕組みが**Self-Attention(自己注意)**です。

直感的な説明

文章の中で、どの単語がどの単語と関係が深いかを自動で見つける仕組みです。

「私はパリに住んでいる。そこは美しい。」

Self-Attention が発見する関係:
  「そこ」 ←─── 強い関連 ───→ 「パリ」
  「美しい」 ←── やや関連 ──→ 「パリ」
  「私」 ←──── 弱い関連 ────→ 「住んでいる」

人間は「そこ=パリ」だと自然にわかりますが、コンピュータにとってはこれが難問でした。Attentionは、文中の全単語ペアの関連度を計算することで、距離に関係なく文脈を正確に理解します。

図書館の司書のアナロジー

あなた(入力文): 「生成AIのハルシネーション対策を教えて」

従来のAI(RNN):
  → 本棚を端から順番に見ていく
  → 途中で最初に探していた本を忘れる
  → 時間がかかる

Transformer(Self-Attention):
  → 全ての本棚を同時にスキャン
  → 「生成AI」「ハルシネーション」「対策」に関連する本を一度に特定
  → 関連度の高い本だけを集めて即座に回答

Multi-Head Attention — 複数の視点で同時に読む

Self-Attentionを**複数の「ヘッド」**で並列実行するのがMulti-Head Attentionです。

ヘッド1: 文法的な関係を分析(「主語-動詞」の対応)
ヘッド2: 意味的な関係を分析(「パリ-美しい」の関連)
ヘッド3: 指示関係を分析(「そこ=パリ」の特定)
ヘッド4: 時制の関係を分析(「住んでいる」=現在進行形)
  ↓
すべての視点を統合 → より正確な文脈理解

人間も本を読むとき、「文法」「意味」「行間」「前後関係」を無意識に同時に処理しています。Multi-Head Attentionはこれをコンピュータで再現した仕組みです。


3. LLMの学習プロセス — 3つのステップ

ChatGPTやClaudeのような大規模言語モデル(LLM)は、3つのステップで作られています。

ステップ1: 事前学習(Pre-training)— 世界の知識を圧縮する

インターネット上の膨大なテキスト(数兆語)を読み込み、「次の単語を予測する」タスクを繰り返して学習します。

学習データ: Web上のテキスト数兆語
  ↓
タスク: 「東京は日本の ___」の空欄を予測
  ↓
正解: 「首都」
  ↓
× 数兆回繰り返し
  ↓
「言語のパターン」を数千億個のパラメータに圧縮

この段階で、文法・事実知識・論理推論・プログラミングなど、あらゆる能力の原型が副産物として生まれます。驚くべきことに、「次の単語を予測する」という単純なタスクだけで、これほど多様な能力が獲得されるのです。

ステップ2: ファインチューニング(Fine-tuning)— 「役に立つ」存在にする

事前学習だけでは、AIは「百科事典を丸暗記した人」のようなもので、質問に適切に答える能力がありません。ファインチューニングで会話の仕方を教えます。

入力: 「日本の人口を教えてください」
  ↓
人間が書いた模範回答で学習
  ↓
AIが「質問→回答」のパターンを習得

LoRAとQLoRA — 効率的なファインチューニング

フルモデルの全パラメータを更新するのは膨大なコストがかかります。LoRA(Low-Rank Adaptation)は、パラメータの一部だけを効率的に更新する手法で、2025年のファインチューニングの主流です。さらにQLoRAは、モデルを4ビットに圧縮(量子化)した状態でLoRAを適用し、一般的なGPUでも70Bクラスのモデルを調整可能にしました。

ステップ3: RLHF — 「安全で人間好みの」回答にする

**RLHF(Reinforcement Learning from Human Feedback)**は、人間の評価を使ってAIの回答品質を改善する強化学習手法です。

AIが2つの回答を生成
  ↓
人間が比較「回答Aの方が良い」
  ↓
この評価を「報酬」として強化学習
  ↓
× 何万回繰り返し
  ↓
人間が好む回答を出すAIが完成

ChatGPTが「礼儀正しく」「安全に」回答するのは、RLHFで「人間が好む回答パターン」を学習したからです。

3ステップの比喩:

  1. 事前学習 = 大量の本を読んで知識を蓄える(知識の獲得)
  2. ファインチューニング = 仕事のやり方を教わる(スキルの習得)
  3. RLHF = 上司や顧客からフィードバックを受けて改善する(品質の向上)

4. トークン — AIが「言葉」を扱う仕組み

トークンとは

AIは人間の言葉をそのまま理解しているわけではありません。テキストを「トークン」と呼ばれる小さな単位に分割して、数値として処理しています。

英語: "unhappiness" → ["un", "happi", "ness"](3トークン)
日本語: "人工知能" → ["人工", "知", "能"](3トークン)

BPE(Byte Pair Encoding)

最も一般的なトークン化手法がBPEです。頻出する文字の組み合わせをまとめて1つのトークンにします。

よく出る組み合わせ: "the" → 1トークン
珍しい組み合わせ: "pneumonia" → ["pne", "um", "onia"](3トークン)

日本語の特殊性

日本語は英語の約2〜3倍のトークンを消費します。これは、GPTやClaudeの語彙が英語中心に設計されているため、日本語の文字がより多くのトークンに分割されるからです。

つまり、同じ内容でも日本語のほうがAPI利用料が高くなります。


5. 埋め込み(Embedding)— 意味を数値化する

言葉の「距離」を測る

トークンに分割された後、各トークンは高次元のベクトル(数百〜数千個の数値の列)に変換されます。これが「埋め込み(Embedding)」です。

「王様」 → [0.12, -0.34, 0.89, 0.23, ...](数千個の数値)
「女王」 → [0.15, -0.31, 0.85, 0.45, ...]
「りんご」 → [0.67, 0.11, -0.42, 0.09, ...]

意味が近い言葉は、ベクトル空間で近い位置に配置されます。

「王様」と「女王」 → 距離が近い(意味が似ている)
「王様」と「りんご」 → 距離が遠い(意味が遠い)

有名な「王様の方程式」

「王様」 - 「男」 + 「女」 ≒ 「女王」

AIは言葉を数値空間にマッピングすることで、「王様と女王の関係は、男と女の関係に近い」という意味的な関係を捉えています。

なぜ重要か

この技術はRAG(検索拡張生成)の基盤です。「AIと人工知能の違い」と質問されたとき、「AI」という文字列ではなく**「AIの意味」**に近い文書を検索できるのは、Embeddingのおかげです。


6. ハルシネーション — なぜAIは「嘘」をつくのか

ハルシネーション(幻覚)とは

AIが事実に基づかない情報を、あたかも正確であるかのように自信を持って出力する現象です。

質問: 「田中太郎教授の2024年の論文は?」
  ↓
AIの処理: 「教授」「論文」「2024年」のパターンから
          「それらしい」タイトルと内容を生成
  ↓
出力: 存在しない論文を自信満々に回答

なぜ起きるのか — 3つの根本原因

原因① 確率的生成の限界

生成AIは「最も確率の高い次の単語」を選んでいるだけで、内容の正誤を検証していません

「ノーベル物理学賞2024年の受賞者は」
  ↓
AI: 「~です」と確率的に生成
  ↓
問題: 学習データのカットオフ後の情報は知らない
  → 「それらしい名前」を生成してしまう

原因② 「知らない」と言えない

AIは「知っている」と「知らない」を区別する仕組みを持っていません。学習データに含まれない情報でも、パターンから「それらしい」回答を生成してしまいます。

人間に例えると: 昔の記憶が不確かなのに自信満々に話してしまう人。AIも同じで、「記憶にないけど、こう言えば自然だろう」と無自覚に捏造します。

原因③ 学習データの偏り

学習データに誤った情報が含まれている場合、AIはそれを「正しい知識」として学んでしまいます。

2026年のハルシネーション対策

ハルシネーションを完全に防ぐことは現時点で不可能ですが、大幅に軽減する技術が進化しています。

対策仕組み効果
RAG(検索拡張生成)外部データベースをリアルタイムで検索して回答生成企業導入で最も主流。事実誤認を根本的に抑制
推論モデル(o1/o3系)答える前に「考えるステップ」を明示化GPT-5の思考モードでハルシネーション80%削減
Constitutional AIAIが「自己批判・自己修正」を行う原則セット有害なハルシネーションを85%削減(Anthropic)
多層防御RAG + RLHF + ガードレールの複合適用スタンフォード研究で96%削減を達成
マルチエージェント検証複数のAIが互いの回答を検証2025年から実用化開始

現実的な付き合い方

ユーザーがすべきこと理由
数値・固有名詞は必ずファクトチェックAIが最も間違えやすい部分
「出典を示して」と指示するただし出典自体が幻覚の場合もあるので確認必須
重要な判断にはAIを「唯一の情報源」にしないあくまで参考意見の一つとして扱う
RAG対応ツールを活用する自社データに基づく回答で精度向上

7. 2026年の主要LLMモデル比較

モデル一覧

モデル提供元特徴得意なこと
GPT-5 / GPT-4oOpenAI市場シェア最大。マルチモーダル対応汎用タスク全般、ブラウジング
Claude 4(Opus / Sonnet)AnthropicConstitutional AIで安全性を設計コーディング、長文分析、日本語
Gemini 2.5 ProGoogleGoogle検索と直結。設計段階からマルチモーダルリサーチ、動画理解、Google連携
DeepSeek R1 / V4DeepSeek(中国)GPT-4同等性能を1/18以下のコストで実現コスト重視のアプリケーション
Llama 4Metaオープンソース。自社サーバーで運用可能カスタマイズ、プライバシー重視

市場シェアの変動

OpenAIの市場シェアは2025年の50%から2026年には**34%**に低下。Anthropic、Google、オープンソース(Llama、DeepSeek)が急速にシェアを拡大しています。

オープンソース vs クローズドソース

比較軸クローズドソースオープンソース
代表例GPT-5、Claude 4Llama 4、DeepSeek V4
性能最高水準クローズドに接近(差は5-10%以内に)
コストAPI課金(高い)自社運用可能(低い)
カスタマイズ限定的自由にファインチューニング可能
セキュリティデータが外部に送信される完全にローカルで運用可能

8. 最先端技術 — Transformerの「次」

Mixture of Experts(MoE)— 専門家チーム方式

アナロジー

100人の専門家がいる会社を想像してください。質問の種類によって、呼ぶ専門家を変えます。数学の問題なら数学チームだけが動き、歴史の質問なら歴史チームだけが動く。全員が動かないから、知識量は巨大なのに、計算コストは小さい

入力: 「日本の歴史について」
  ↓
ルーター(振り分け役): 「歴史チームを起動」
  ↓
歴史チーム(256人中の8人だけ)が処理
  ↓
出力: 歴史に関する回答

実際のモデル

モデル総パラメータ実際に使うパラメータ効果
DeepSeek V46,850億約370億全体の5%しか使わずGPT-4と同等性能
Llama 4 Maverick非公開128の専門家チーム
Gemma 4260億38億85%のパラメータを休ませている

DeepSeek R1の衝撃: MoEアーキテクチャにより、API価格を競合の1/27に設定。「AIは巨額投資しないと作れない」という常識を覆しました。

State Space Models(SSM / Mamba)— 要約しながら読む秘書

アナロジー

Transformerが「全員のメモを全部読み返してから返答する秘書」なら、Mambaは「過去の会話を要約しながら随時更新する秘書」です。

比較TransformerMamba(SSM)
処理方法全文を同時に処理要約しながら逐次処理
メモリ使用量文章が長いほど2乗で増加文章長に関係なく一定(線形)
処理速度長文で遅くなる長文でも速い
精度高いTransformerに接近中

2026年の実態: Mambaは学術的には有力ですが、Transformerを大規模に置換するには至っていません。商用モデルの多くはTransformer(MoE強化版)が主流です。ただし、MambaとTransformerのハイブリッド型(AI21 LabsのJamba等)が登場し始めています。

推論モデル — 「即答型」から「考える型」へ

2024年末に登場した推論モデル(Reasoning Model)は、答える前に内部で思考プロセスを実行します。

種類動き方得意なこと
従来型(GPT-4o等)入力 → 即答日常会話、要約、文章生成
推論型(o1, o3, DeepSeek R1)入力 → 内部で考える → 答え数学、論理問題、複雑な分析
従来型:
  「3の27乗は?」→ 即座に(しかし間違える可能性がある)

推論型:
  「3の27乗は?」→ ステップ1: 3の3乗=27 → ステップ2: 27の3乗=19683 → ...
  → 内部で段階的に計算 → より正確な回答

電卓に例えると: 従来型は「暗算が超速い人」。推論型は「紙に書きながらじっくり考える人」。後者のほうが正確だが時間がかかります。


9. AIをいい子にする技術 — アライメント

生成AIが有害な回答をしないようにする技術を「アライメント(Alignment)」と呼びます。

技術アナロジー使っている企業
RLHF人事評価で新人を育てる。人間が「良い回答」「悪い回答」を採点OpenAI, Anthropic, Google
Constitutional AIAIに「憲法」を渡し、自己批判・改善させる。上司なしで倫理を守るAnthropic(Claude)
DPO「A回答よりB回答が良い」の比較データから効率的に学習2025年から急速普及

Constitutional AI(Anthropicの独自技術)

Anthropicが開発したClaudeの基盤技術。AIに**原則集("憲法")**を与え、自分自身の回答を批判・修正させる仕組みです。

ステップ1: AIが回答を生成
ステップ2: AIが自身の回答を「原則」に照らして批判
ステップ3: 批判に基づいて回答を修正
ステップ4: 修正された回答を出力

人間がすべての回答をチェックするRLHFと比べて、スケーラブル(大量の回答を自動的に改善できる)という利点があります。


10. マルチモーダル — テキスト以外も扱えるAI

2025年から、生成AIは「テキストだけ」の世界を超えました。

従来: テキスト → テキスト

現在: テキスト ─┐
      画像   ─┤→ 統合AI → テキスト / 画像 / 音声 / 動画
      音声   ─┤
      動画   ─┘

主要なマルチモーダルモデル

モデルテキスト画像入力画像生成音声動画入力
GPT-4o✅(リアルタイム)
Claude 4
Gemini 2.5✅(長時間対応)

具体例: 「スマホのカメラで料理を撮影 → AIが栄養素を分析 → 食事アドバイスを音声で回答」が2026年には当たり前になりつつあります。


11. 生成AIの限界を知る

技術の理解と同じくらい重要なのが、限界の理解です。

生成AIが「できない」こと(2026年時点)

できないこと理由
最新情報の回答学習データのカットオフ以降の出来事は知らない
事実の検証「正しいか」ではなく「それらしいか」で出力している
論理的な計算文字パターンベースなので、複雑な計算は苦手
因果関係の理解相関は見つけるが、「なぜ」は理解していない
自分の限界を認識「知らない」と適切に判断できない

生成AIと人間の「知能」の違い

人間の知能:
  体験 → 理解 → 判断 → 行動 → 学習(フィードバックループ)
  + 感情 + 身体感覚 + 社会的文脈 + 意味の把握

生成AIの「知能」:
  パターン認識 → 確率的出力(一方通行)
  感情なし / 理解なし / 意味の把握なし

忘れてはいけないこと: 生成AIは「知能をシミュレートしている」のであって、「知能を持っている」わけではありません。この区別を理解することが、AIを正しく活用する第一歩です。


この章のまとめ(3ポイント)

  1. 生成AIの本質は「次の単語の予測」。Transformerのself-Attention機構が、文脈全体を同時に把握して予測精度を飛躍的に高めた
  2. ハルシネーションは構造的な問題。完全防止は不可能だが、RAG・推論モデル・Constitutional AIの組み合わせで96%まで削減可能
  3. MoEや推論モデルが次のフロンティア。より少ない計算資源でより高い性能を実現する技術が、AIの民主化を加速している

もっと知りたい人へ

  • 「Attention Is All You Need」(Google, 2017年): Transformerの原論文。技術的だが、図を見るだけでも仕組みのイメージが掴める
  • Anthropic「Claude's Character」: Constitutional AIの設計思想をAnthropicが公式に解説した記事
  • 3Blue1Brown「But what is a GPT?」(YouTube): 数学的な厳密さを保ちながら、ビジュアルでTransformerの仕組みを解説した動画シリーズ