2026-05-0210分

RAGを超えるCorpus2Skill｜PMBOK-AI 14章を「AIの技能」に変換してみた

PMBOK-AI Claude Code AIエージェント AI活用 AI開発 Corpus2Skill RAG

Summary

2026年4月に発表された論文Corpus2Skillを、PMBOK-AI書籍14章で実際に試した。19ドキュメントを30.5秒で4つのスキルツリーに蒸留し、Claude Code Skillsとして即座に利用可能な形式で出力。RAGの検索して断片を渡す受動的アプローチに対し、Corpus2Skillは構造を俯瞰してナビゲートする能動的アプローチで、企業ナレッジの活用精度を根本的に変える。

RAGを超えるCorpus2Skill｜PMBOK-AI 14章を「AIの技能」に変換してみた

PMBOK-AI書籍14章・約10万字を、30.5秒で「AIの技能（Skill）」に変換した。 ベクトルDBもチャンク分割も不要。生成された .claude/skills/SKILL.md は、Claude Codeのスキルシステムにそのまま読み込める。

この記事では、2026年4月に発表された論文「Don't Retrieve, Navigate」の実装 Corpus2Skill を実際に動かし、従来のRAGと何が違うのか、どこが優れているのかを実験データで示す。

RAGの構造的な限界

RAG（Retrieval-Augmented Generation）は、2024年以降のAI活用で最も普及した手法だ。ドキュメントをベクトル化し、クエリに近い断片を検索してLLMに渡す。

しかし実務で使い込むと、3つの構造的な問題にぶつかる。

問題	具体例
断片しか見えない	「PMBOK-AIの第5章と第10章の関連は？」→ チャンク単位の検索では章をまたいだ構造が見えない
文脈が消える	類似キーワードが複数章にあると、関係ない章の断片が混入する
全容を把握できない	「この書籍の全体像は？」という問いに、ベクトル検索は構造的に答えられない

RAGは「図書館でキーワード検索をして、ヒットした数ページのコピーをAIに渡す」手法だ。検索精度をチューニングし続けても、「断片を渡す」というアーキテクチャ自体が天井になる。

Corpus2Skillとは — 検索するな、ナビゲートせよ

2026年4月16日、Sun, Wei, Hsiehの3名が論文 「Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG」（arxiv: 2604.14572）を発表した。

Corpus2Skillは、この論文の公式実装だ。

仕組み

従来のRAGが「検索→断片を渡す」の受動的手法だったのに対し、Corpus2Skillはコーパス全体を階層的なスキルツリーに事前構造化し、LLMエージェントが自ら地図を辿るように正解にナビゲートする。

処理は2フェーズに分かれる。

オフライン（コンパイル）:

ドキュメントをエンベディングでベクトル化
K-meansで類似ドキュメントをクラスタリング
各クラスタの要約をLLMで生成
再帰的に階層化し、SKILL.md / INDEX.md ファイルとして出力

オンライン（サーブ）:

エージェントがトップレベルの要約を俯瞰
関連するブランチにドリルダウン
必要なドキュメントをIDで取得

RAGとの比較

項目	RAG	Corpus2Skill
アプローチ	ベクトル検索（受動的）	階層ナビゲーション（能動的）
必要インフラ	ベクトルDB + エンベディングAPI	ファイルシステムのみ
文脈理解	チャンク単位（断片的）	構造化された俯瞰→詳細
バックトラック	不可	別ブランチへ自由に移動
スケーリング	線形	O(log N)
出力形式	なし（内部処理）	Claude Code Skills互換

最後の行が決定的だ。Corpus2Skillの出力は .claude/skills/SKILL.md 形式——つまりClaude Codeのスキルシステムに直結する。

ずんべぇ

要するに、精度を上げた高性能なRAGってことですよね？

うぉんば

そこが誤解されやすい。RAGは毎回ゼロから断片を探す。Corpus2Skillは先に地図を作っておくんだ。

ずんべぇ

地図…？

うぉんば

目次と要約の階層だよ。エージェントは全体を俯瞰してから、必要な枝だけ降りていく。

ずんべぇ

なるほど、探すんじゃなくて辿るのか…！

うぉんば

そう。だから章をまたいだ関係にも答えられる。検索では消える構造が、地図には残るんだ。

実験: PMBOK-AI 14章を変換する

セットアップ

# リポジトリをクローン
git clone https://github.com/dukesun99/Corpus2Skill.git
cd Corpus2Skill

# 依存パッケージをインストール
pip install anthropic numpy scikit-learn sentence-transformers python-dotenv nltk

# Anthropic APIキーを設定
export ANTHROPIC_API_KEY=sk-ant-xxxxx

PyPIには未登録（2026年5月時点）のため、GitHubから直接クローンする。pyproject.toml のビルドバックエンドに互換性の問題があるため、pip install git+... ではなくクローン後にパスを通す方法が確実だ。

入力データ

PMBOK-AI書籍の全ファイル:

book/chapters/
├── 00_master_plan.md      # 構成案
├── 00_preface.md          # まえがき
├── 00_table_of_contents.md # 目次
├── 01_chapter1.md ~ 14_chapter14.md  # 本文14章
├── revision-proposal-v1.1.md  # 改版提案書
└── system_overview.md     # システム全体像

合計 19ファイル、約10万字。

実行

from corpus2skill.config import CompileConfig
from corpus2skill.compile import compile_corpus
from pathlib import Path

cfg = CompileConfig(
    input_dir=Path("book/chapters"),
    output_dir=Path("c2s_output"),
    p=5,                              # クラスタあたりの分岐数
    max_top_clusters=5,               # トップレベルの最大クラスタ数
    min_cluster_size=2,               # 最小クラスタサイズ
    llm_model="claude-sonnet-4-6",    # 要約生成モデル
    embed_model="all-MiniLM-L6-v2",   # エンベディングモデル
    max_doc_chars=8000,               # ドキュメントあたり最大文字数
    compact=True,                     # リーフノードを親に統合
)
compile_corpus(cfg)

注意点: 論文のデフォルトエンベディングモデル Qwen/Qwen3-Embedding-0.6B はWindows環境でセグフォルトした。all-MiniLM-L6-v2（384次元）に切り替えて問題なく動作した。

結果

============================================================
Compilation complete in 30.5s
  Skills: 4
  Documents: 19
  Hierarchy depth: 1
  Output: c2s_output/.claude/skills
============================================================

30.5秒。19ドキュメントが4つのスキルに分類された。

生成されたスキルツリーの分析

Corpus2Skillが自動生成した4つのスキルクラスタを見る。

Skill 0: PMBOK-AIフレームワーク概要（4ドキュメント）

書籍の骨格——構成案、まえがき、目次、システム全体像が1つのクラスタに。

"PMBOK-AIの書籍構成、著者の背景とFDEとしての実践経験、Claude API/MCP/Agent Teamsの位置づけを解説"

Skill 1: PM×AI基盤理論（3ドキュメント）

第1章（序章）、第7章（品質・EVALP）、第12章（組織変革）。

"人間の認知的限界（データ入力エラー率1-4%、スプレッドシートエラー率94%）がAI導入を正当化する根拠、EVALPメソドロジー、4世代のPM進化論"

Skill 2: 実践知識体系（10ドキュメント）— 最大クラスタ

第2章〜第11章の実践的な章が集中。RACI-AIモデル、二人三脚プロセス、ガバナンス設計など。

"PMはどのようにAIをチームメンバーとして統合すべきか、AIリソースの調達・コスト・セキュリティをどう管理するか、PMBOK-AI 7原則とマルチエージェント・オーケストレーション"

Skill 3: 失敗学と未来展望（2ドキュメント）

第13章（AI失敗学）と第14章（総括）。

"なぜAIプロジェクトが失敗するのか——契約書の準拠法ミス・SQLインジェクション・業務自動化への反発という3つの罠"

クラスタリング精度の評価

正直に言えば、書籍の章立てとCorpus2Skillのクラスタリングは完全には一致しない。

例えば第1章（序章）は「基盤理論」に分類されたが、内容的には「概要」に近い。第12章（組織変革）も「基盤理論」に入ったが、「実践知識体系」の方が妥当かもしれない。

ただし、全体構造の把握という点では十分に機能する。エージェントが「この書籍はどんな内容か？」と問われたとき、4つのスキル要約を読むだけで全容を掴める。これはRAGのチャンク検索では絶対にできないことだ。

Claude Code Skillsとの直結 — これが最大の差別化

Corpus2Skillの出力は以下の構造になる:

c2s_output/
├── .claude/skills/
│   ├── skill-00-pmbok-ai-framework/SKILL.md
│   ├── skill-01-pmbok-ai-project-management/SKILL.md
│   ├── skill-02-pmbok-ai-framework/SKILL.md
│   └── skill-03-pmbok-ai-project-management/SKILL.md
├── documents.json    # 全文ドキュメントストア
└── compile_meta.json # コンパイルメタデータ

この .claude/skills/ ディレクトリをプロジェクトルートにコピーすれば、Claude Codeが即座にスキルとして認識する。

実際に動かすと、Claude Codeのスキル一覧に以下が追加される:

skill-00-pmbok-ai-framework — 書籍概要と著者背景
skill-01-pmbok-ai-project-management — 基盤理論
skill-02-pmbok-ai-framework — 実践知識体系（10章分）
skill-03-pmbok-ai-project-management — 失敗学と未来展望

つまり、Corpus2Skillを実行するだけで、書籍10万字がClaude Codeの「技能」になる。

これはRAGでは実現できない。RAGはあくまで「検索結果をコンテキストに注入する」仕組みであり、AIの恒常的な知識体系にはならない。Corpus2Skillは知識をスキルとして蒸留し、AIエージェントの一部にする。

AIを育てる技術で解説したCLAUDE.md・hooks・memoryの3層アーキテクチャに、Corpus2Skillのスキルツリーが4層目として加わる形だ。

RAGとCorpus2Skillの使い分け

「RAG終了」という煽りをたまに見かけるが、用途が異なる。

ずんべぇ

じゃあもう、RAGは全部いらないってことですか？

うぉんば

いやいや、そこは早とちり。得意分野が違うだけだよ。

ずんべぇ

えっ、どう違うんです？

うぉんば

毎分更新されるニュースやSNSはRAG向き。事前コンパイルが間に合わないからね。

ずんべぇ

逆に、変わらない書籍や規程は…？

うぉんば

Corpus2Skillの独壇場。安定した知識ほど、地図にする価値が高い。

ユースケース	推奨	理由
リアルタイム更新が必要なデータ	RAG	Corpus2Skillはオフラインコンパイルが必要
数万件のFAQ・ヘルプデスク	Corpus2Skill	階層ナビゲーションで精度向上
社内マニュアル・業務手順書	Corpus2Skill	構造化により文脈を保持
ニュース・SNS等の流動的情報	RAG	コーパスが頻繁に変わる場合
書籍・仕様書・法令集	Corpus2Skill	安定した知識体系の蒸留に最適
AIエージェントのスキル化	Corpus2Skill一択	Skills形式で直接出力

個人的な見解を述べると、安定した知識体系にはCorpus2Skillが優位だ。特にClaude Codeのスキルシステムと直結する点で、RAGの代替ではなく上位互換になりうる。

MCPが1年で業界標準になったように、Corpus2Skillもスキル標準の一部として普及する可能性がある。MCPが「ツールの接続」を標準化したのに対し、Corpus2Skillは「知識の接続」を標準化する技術だ。

自分のプロジェクトで試す手順

ドキュメントを1ディレクトリにまとめる — .md、.txt、.json、.jsonl 対応
Corpus2Skillをクローンしてセットアップ（上記参照）
パラメータを調整 — p（分岐数）はドキュメント数の平方根が目安
コンパイル実行 — 19ドキュメントで30秒、100ドキュメントでも数分
出力された .claude/skills/ をプロジェクトにコピー
Claude Codeで動作確認 — スキル一覧に表示されるか確認

注意点:

エンベディングモデルは all-MiniLM-L6-v2 がWindows環境で安定
Anthropic APIキーが必要（要約生成にClaude Sonnetを使用）
GitHub Stars約20（2026年5月時点）のアーリーステージ。本番利用は自己責任で

まとめ

項目	結果
入力	PMBOK-AI 14章、19ファイル、約10万字
処理時間	30.5秒
出力	4スキルツリー + ドキュメントストア
形式	`.claude/skills/SKILL.md`（Claude Code直結）
コスト	Sonnet API数回分（数セント）

知識は構造化してこそ武器になる。 RAGが「キーワードで断片を引っ張る」手法だとすれば、Corpus2Skillは「全容を理解した上でナビゲートする」手法だ。

私はPMBOK-AIの著者として14章・10万字を書いた。その書籍を30秒で「AIの技能」に変換できた事実は、知識の民主化が次のフェーズに入ったことを意味する。

次は、Claude Code Agent Teamsと組み合わせて、スキルツリーを参照しながら自律的にタスクを実行するエージェント構成を試してみたい。

参考文献

Sun, Wei, Hsieh. "Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG" (arxiv: 2604.14572, 2026)
GitHub: dukesun99/Corpus2Skill
Anthropic: Extend Claude with Skills

Topic

PMBOK-AI と AIプロジェクトマネジメント

AIをチームに組み込むプロジェクトマネジメント手法「PMBOK-AI」と、AI時代のPM実践・品質・意思決定を扱うトピックです。

PMBOK-AI とはを見る

AIに意識はあるのか｜Anthropicが見つけた「J-space」を、煽らずに読み解く

2026-07-14

AIはなぜ会話できるのか｜「次の1単語を当てているだけ」なのに話が通じる理由

2026-07-14

Claude Opus 4.8で「AIに任せられる範囲」はどこまで広がったか — PMが手元に残す判断という最後の砦

2026-06-12

AIは脳のコピーではない｜ニューラルネットワークと本物のシナプス、決定的な3つの違い

2026-05-28

AIチームの構築に興味がありますか？

まずはお気軽にご相談ください

お問い合わせ PMBOK-AIについて