RAGを超えるCorpus2Skill|PMBOK-AI 14章を「AIの技能」に変換してみた
PMBOK-AI書籍14章・約10万字を、30.5秒で「AIの技能(Skill)」に変換した。 ベクトルDBもチャンク分割も不要。生成された .claude/skills/SKILL.md は、Claude Codeのスキルシステムにそのまま読み込める。
この記事では、2026年4月に発表された論文「Don't Retrieve, Navigate」の実装 Corpus2Skill を実際に動かし、従来のRAGと何が違うのか、どこが優れているのかを実験データで示す。

RAGの構造的な限界
RAG(Retrieval-Augmented Generation)は、2024年以降のAI活用で最も普及した手法だ。ドキュメントをベクトル化し、クエリに近い断片を検索してLLMに渡す。
しかし実務で使い込むと、3つの構造的な問題にぶつかる。
| 問題 | 具体例 |
|---|---|
| 断片しか見えない | 「PMBOK-AIの第5章と第10章の関連は?」→ チャンク単位の検索では章をまたいだ構造が見えない |
| 文脈が消える | 類似キーワードが複数章にあると、関係ない章の断片が混入する |
| 全容を把握できない | 「この書籍の全体像は?」という問いに、ベクトル検索は構造的に答えられない |
RAGは「図書館でキーワード検索をして、ヒットした数ページのコピーをAIに渡す」手法だ。検索精度をチューニングし続けても、「断片を渡す」というアーキテクチャ自体が天井になる。
Corpus2Skillとは — 検索するな、ナビゲートせよ
2026年4月16日、Sun, Wei, Hsiehの3名が論文 「Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG」(arxiv: 2604.14572)を発表した。
Corpus2Skillは、この論文の公式実装だ。
仕組み
従来のRAGが「検索→断片を渡す」の受動的手法だったのに対し、Corpus2Skillはコーパス全体を階層的なスキルツリーに事前構造化し、LLMエージェントが自ら地図を辿るように正解にナビゲートする。
処理は2フェーズに分かれる。
オフライン(コンパイル):
- ドキュメントをエンベディングでベクトル化
- K-meansで類似ドキュメントをクラスタリング
- 各クラスタの要約をLLMで生成
- 再帰的に階層化し、
SKILL.md/INDEX.mdファイルとして出力
オンライン(サーブ):
- エージェントがトップレベルの要約を俯瞰
- 関連するブランチにドリルダウン
- 必要なドキュメントをIDで取得

RAGとの比較
| 項目 | RAG | Corpus2Skill |
|---|---|---|
| アプローチ | ベクトル検索(受動的) | 階層ナビゲーション(能動的) |
| 必要インフラ | ベクトルDB + エンベディングAPI | ファイルシステムのみ |
| 文脈理解 | チャンク単位(断片的) | 構造化された俯瞰→詳細 |
| バックトラック | 不可 | 別ブランチへ自由に移動 |
| スケーリング | 線形 | O(log N) |
| 出力形式 | なし(内部処理) | Claude Code Skills互換 |
最後の行が決定的だ。Corpus2Skillの出力は .claude/skills/SKILL.md 形式——つまりClaude Codeのスキルシステムに直結する。
実験: PMBOK-AI 14章を変換する
セットアップ
# リポジトリをクローン
git clone https://github.com/dukesun99/Corpus2Skill.git
cd Corpus2Skill
# 依存パッケージをインストール
pip install anthropic numpy scikit-learn sentence-transformers python-dotenv nltk
# Anthropic APIキーを設定
export ANTHROPIC_API_KEY=sk-ant-xxxxx
PyPIには未登録(2026年5月時点)のため、GitHubから直接クローンする。pyproject.toml のビルドバックエンドに互換性の問題があるため、pip install git+... ではなくクローン後にパスを通す方法が確実だ。
入力データ
PMBOK-AI書籍の全ファイル:
book/chapters/
├── 00_master_plan.md # 構成案
├── 00_preface.md # まえがき
├── 00_table_of_contents.md # 目次
├── 01_chapter1.md ~ 14_chapter14.md # 本文14章
├── revision-proposal-v1.1.md # 改版提案書
└── system_overview.md # システム全体像
合計 19ファイル、約10万字。
実行
from corpus2skill.config import CompileConfig
from corpus2skill.compile import compile_corpus
from pathlib import Path
cfg = CompileConfig(
input_dir=Path("book/chapters"),
output_dir=Path("c2s_output"),
p=5, # クラスタあたりの分岐数
max_top_clusters=5, # トップレベルの最大クラスタ数
min_cluster_size=2, # 最小クラスタサイズ
llm_model="claude-sonnet-4-6", # 要約生成モデル
embed_model="all-MiniLM-L6-v2", # エンベディングモデル
max_doc_chars=8000, # ドキュメントあたり最大文字数
compact=True, # リーフノードを親に統合
)
compile_corpus(cfg)
注意点: 論文のデフォルトエンベディングモデル Qwen/Qwen3-Embedding-0.6B はWindows環境でセグフォルトした。all-MiniLM-L6-v2(384次元)に切り替えて問題なく動作した。
結果
============================================================
Compilation complete in 30.5s
Skills: 4
Documents: 19
Hierarchy depth: 1
Output: c2s_output/.claude/skills
============================================================
30.5秒。19ドキュメントが4つのスキルに分類された。
生成されたスキルツリーの分析
Corpus2Skillが自動生成した4つのスキルクラスタを見る。

Skill 0: PMBOK-AIフレームワーク概要(4ドキュメント)
書籍の骨格——構成案、まえがき、目次、システム全体像が1つのクラスタに。
"PMBOK-AIの書籍構成、著者の背景とFDEとしての実践経験、Claude API/MCP/Agent Teamsの位置づけを解説"
Skill 1: PM×AI基盤理論(3ドキュメント)
第1章(序章)、第7章(品質・EVALP)、第12章(組織変革)。
"人間の認知的限界(データ入力エラー率1-4%、スプレッドシートエラー率94%)がAI導入を正当化する根拠、EVALPメソドロジー、4世代のPM進化論"
Skill 2: 実践知識体系(10ドキュメント)— 最大クラスタ
第2章〜第11章の実践的な章が集中。RACI-AIモデル、二人三脚プロセス、ガバナンス設計など。
"PMはどのようにAIをチームメンバーとして統合すべきか、AIリソースの調達・コスト・セキュリティをどう管理するか、PMBOK-AI 7原則とマルチエージェント・オーケストレーション"
Skill 3: 失敗学と未来展望(2ドキュメント)
第13章(AI失敗学)と第14章(総括)。
"なぜAIプロジェクトが失敗するのか——契約書の準拠法ミス・SQLインジェクション・業務自動化への反発という3つの罠"
クラスタリング精度の評価
正直に言えば、書籍の章立てとCorpus2Skillのクラスタリングは完全には一致しない。
例えば第1章(序章)は「基盤理論」に分類されたが、内容的には「概要」に近い。第12章(組織変革)も「基盤理論」に入ったが、「実践知識体系」の方が妥当かもしれない。
ただし、全体構造の把握という点では十分に機能する。エージェントが「この書籍はどんな内容か?」と問われたとき、4つのスキル要約を読むだけで全容を掴める。これはRAGのチャンク検索では絶対にできないことだ。
Claude Code Skillsとの直結 — これが最大の差別化
Corpus2Skillの出力は以下の構造になる:
c2s_output/
├── .claude/skills/
│ ├── skill-00-pmbok-ai-framework/SKILL.md
│ ├── skill-01-pmbok-ai-project-management/SKILL.md
│ ├── skill-02-pmbok-ai-framework/SKILL.md
│ └── skill-03-pmbok-ai-project-management/SKILL.md
├── documents.json # 全文ドキュメントストア
└── compile_meta.json # コンパイルメタデータ
この .claude/skills/ ディレクトリをプロジェクトルートにコピーすれば、Claude Codeが即座にスキルとして認識する。
実際に動かすと、Claude Codeのスキル一覧に以下が追加される:
skill-00-pmbok-ai-framework— 書籍概要と著者背景skill-01-pmbok-ai-project-management— 基盤理論skill-02-pmbok-ai-framework— 実践知識体系(10章分)skill-03-pmbok-ai-project-management— 失敗学と未来展望
つまり、Corpus2Skillを実行するだけで、書籍10万字がClaude Codeの「技能」になる。
これはRAGでは実現できない。RAGはあくまで「検索結果をコンテキストに注入する」仕組みであり、AIの恒常的な知識体系にはならない。Corpus2Skillは知識をスキルとして蒸留し、AIエージェントの一部にする。
AIを育てる技術で解説したCLAUDE.md・hooks・memoryの3層アーキテクチャに、Corpus2Skillのスキルツリーが4層目として加わる形だ。
RAGとCorpus2Skillの使い分け
「RAG終了」という煽りをたまに見かけるが、用途が異なる。
| ユースケース | 推奨 | 理由 |
|---|---|---|
| リアルタイム更新が必要なデータ | RAG | Corpus2Skillはオフラインコンパイルが必要 |
| 数万件のFAQ・ヘルプデスク | Corpus2Skill | 階層ナビゲーションで精度向上 |
| 社内マニュアル・業務手順書 | Corpus2Skill | 構造化により文脈を保持 |
| ニュース・SNS等の流動的情報 | RAG | コーパスが頻繁に変わる場合 |
| 書籍・仕様書・法令集 | Corpus2Skill | 安定した知識体系の蒸留に最適 |
| AIエージェントのスキル化 | Corpus2Skill一択 | Skills形式で直接出力 |
個人的な見解を述べると、安定した知識体系にはCorpus2Skillが優位だ。特にClaude Codeのスキルシステムと直結する点で、RAGの代替ではなく上位互換になりうる。
MCPが1年で業界標準になったように、Corpus2Skillもスキル標準の一部として普及する可能性がある。MCPが「ツールの接続」を標準化したのに対し、Corpus2Skillは「知識の接続」を標準化する技術だ。
自分のプロジェクトで試す手順
- ドキュメントを1ディレクトリにまとめる —
.md、.txt、.json、.jsonl対応 - Corpus2Skillをクローンしてセットアップ(上記参照)
- パラメータを調整 —
p(分岐数)はドキュメント数の平方根が目安 - コンパイル実行 — 19ドキュメントで30秒、100ドキュメントでも数分
- 出力された
.claude/skills/をプロジェクトにコピー - Claude Codeで動作確認 — スキル一覧に表示されるか確認
注意点:
- エンベディングモデルは
all-MiniLM-L6-v2がWindows環境で安定 - Anthropic APIキーが必要(要約生成にClaude Sonnetを使用)
- GitHub Stars約20(2026年5月時点)のアーリーステージ。本番利用は自己責任で
まとめ
| 項目 | 結果 |
|---|---|
| 入力 | PMBOK-AI 14章、19ファイル、約10万字 |
| 処理時間 | 30.5秒 |
| 出力 | 4スキルツリー + ドキュメントストア |
| 形式 | .claude/skills/SKILL.md(Claude Code直結) |
| コスト | Sonnet API数回分(数セント) |
知識は構造化してこそ武器になる。 RAGが「キーワードで断片を引っ張る」手法だとすれば、Corpus2Skillは「全容を理解した上でナビゲートする」手法だ。
私はPMBOK-AIの著者として14章・10万字を書いた。その書籍を30秒で「AIの技能」に変換できた事実は、知識の民主化が次のフェーズに入ったことを意味する。
次は、Claude Code Agent Teamsと組み合わせて、スキルツリーを参照しながら自律的にタスクを実行するエージェント構成を試してみたい。
参考文献
- Sun, Wei, Hsieh. "Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG" (arxiv: 2604.14572, 2026)
- GitHub: dukesun99/Corpus2Skill
- Anthropic: Extend Claude with Skills