10分

RAGを超えるCorpus2Skill|PMBOK-AI 14章を「AIの技能」に変換してみた

Summary

2026年4月に発表された論文Corpus2Skillを、PMBOK-AI書籍14章で実際に試した。19ドキュメントを30.5秒で4つのスキルツリーに蒸留し、Claude Code Skillsとして即座に利用可能な形式で出力。RAGの検索して断片を渡す受動的アプローチに対し、Corpus2Skillは構造を俯瞰してナビゲートする能動的アプローチで、企業ナレッジの活用精度を根本的に変える。

RAGを超えるCorpus2Skill|PMBOK-AI 14章を「AIの技能」に変換してみた

PMBOK-AI書籍14章・約10万字を、30.5秒で「AIの技能(Skill)」に変換した。 ベクトルDBもチャンク分割も不要。生成された .claude/skills/SKILL.md は、Claude Codeのスキルシステムにそのまま読み込める。

この記事では、2026年4月に発表された論文「Don't Retrieve, Navigate」の実装 Corpus2Skill を実際に動かし、従来のRAGと何が違うのか、どこが優れているのかを実験データで示す。

RAG vs Corpus2Skill — 検索から探索へ


RAGの構造的な限界

RAG(Retrieval-Augmented Generation)は、2024年以降のAI活用で最も普及した手法だ。ドキュメントをベクトル化し、クエリに近い断片を検索してLLMに渡す。

しかし実務で使い込むと、3つの構造的な問題にぶつかる。

問題具体例
断片しか見えない「PMBOK-AIの第5章と第10章の関連は?」→ チャンク単位の検索では章をまたいだ構造が見えない
文脈が消える類似キーワードが複数章にあると、関係ない章の断片が混入する
全容を把握できない「この書籍の全体像は?」という問いに、ベクトル検索は構造的に答えられない

RAGは「図書館でキーワード検索をして、ヒットした数ページのコピーをAIに渡す」手法だ。検索精度をチューニングし続けても、「断片を渡す」というアーキテクチャ自体が天井になる


Corpus2Skillとは — 検索するな、ナビゲートせよ

2026年4月16日、Sun, Wei, Hsiehの3名が論文 「Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG」(arxiv: 2604.14572)を発表した。

Corpus2Skillは、この論文の公式実装だ。

仕組み

従来のRAGが「検索→断片を渡す」の受動的手法だったのに対し、Corpus2Skillはコーパス全体を階層的なスキルツリーに事前構造化し、LLMエージェントが自ら地図を辿るように正解にナビゲートする。

処理は2フェーズに分かれる。

オフライン(コンパイル):

  1. ドキュメントをエンベディングでベクトル化
  2. K-meansで類似ドキュメントをクラスタリング
  3. 各クラスタの要約をLLMで生成
  4. 再帰的に階層化し、SKILL.md / INDEX.md ファイルとして出力

オンライン(サーブ):

  1. エージェントがトップレベルの要約を俯瞰
  2. 関連するブランチにドリルダウン
  3. 必要なドキュメントをIDで取得

Corpus2Skillパイプライン — 4ステップで書籍がスキルに変わる

RAGとの比較

項目RAGCorpus2Skill
アプローチベクトル検索(受動的)階層ナビゲーション(能動的)
必要インフラベクトルDB + エンベディングAPIファイルシステムのみ
文脈理解チャンク単位(断片的)構造化された俯瞰→詳細
バックトラック不可別ブランチへ自由に移動
スケーリング線形O(log N)
出力形式なし(内部処理)Claude Code Skills互換

最後の行が決定的だ。Corpus2Skillの出力は .claude/skills/SKILL.md 形式——つまりClaude Codeのスキルシステムに直結する


実験: PMBOK-AI 14章を変換する

セットアップ

# リポジトリをクローン
git clone https://github.com/dukesun99/Corpus2Skill.git
cd Corpus2Skill

# 依存パッケージをインストール
pip install anthropic numpy scikit-learn sentence-transformers python-dotenv nltk

# Anthropic APIキーを設定
export ANTHROPIC_API_KEY=sk-ant-xxxxx

PyPIには未登録(2026年5月時点)のため、GitHubから直接クローンする。pyproject.toml のビルドバックエンドに互換性の問題があるため、pip install git+... ではなくクローン後にパスを通す方法が確実だ。

入力データ

PMBOK-AI書籍の全ファイル:

book/chapters/
├── 00_master_plan.md      # 構成案
├── 00_preface.md          # まえがき
├── 00_table_of_contents.md # 目次
├── 01_chapter1.md ~ 14_chapter14.md  # 本文14章
├── revision-proposal-v1.1.md  # 改版提案書
└── system_overview.md     # システム全体像

合計 19ファイル、約10万字

実行

from corpus2skill.config import CompileConfig
from corpus2skill.compile import compile_corpus
from pathlib import Path

cfg = CompileConfig(
    input_dir=Path("book/chapters"),
    output_dir=Path("c2s_output"),
    p=5,                              # クラスタあたりの分岐数
    max_top_clusters=5,               # トップレベルの最大クラスタ数
    min_cluster_size=2,               # 最小クラスタサイズ
    llm_model="claude-sonnet-4-6",    # 要約生成モデル
    embed_model="all-MiniLM-L6-v2",   # エンベディングモデル
    max_doc_chars=8000,               # ドキュメントあたり最大文字数
    compact=True,                     # リーフノードを親に統合
)
compile_corpus(cfg)

注意点: 論文のデフォルトエンベディングモデル Qwen/Qwen3-Embedding-0.6B はWindows環境でセグフォルトした。all-MiniLM-L6-v2(384次元)に切り替えて問題なく動作した。

結果

============================================================
Compilation complete in 30.5s
  Skills: 4
  Documents: 19
  Hierarchy depth: 1
  Output: c2s_output/.claude/skills
============================================================

30.5秒。19ドキュメントが4つのスキルに分類された。


生成されたスキルツリーの分析

Corpus2Skillが自動生成した4つのスキルクラスタを見る。

生成されたスキルツリー構造 — 19ドキュメントが4クラスタに分類

Skill 0: PMBOK-AIフレームワーク概要(4ドキュメント)

書籍の骨格——構成案、まえがき、目次、システム全体像が1つのクラスタに。

"PMBOK-AIの書籍構成、著者の背景とFDEとしての実践経験、Claude API/MCP/Agent Teamsの位置づけを解説"

Skill 1: PM×AI基盤理論(3ドキュメント)

第1章(序章)、第7章(品質・EVALP)、第12章(組織変革)。

"人間の認知的限界(データ入力エラー率1-4%、スプレッドシートエラー率94%)がAI導入を正当化する根拠、EVALPメソドロジー、4世代のPM進化論"

Skill 2: 実践知識体系(10ドキュメント)— 最大クラスタ

第2章〜第11章の実践的な章が集中。RACI-AIモデル、二人三脚プロセス、ガバナンス設計など。

"PMはどのようにAIをチームメンバーとして統合すべきか、AIリソースの調達・コスト・セキュリティをどう管理するか、PMBOK-AI 7原則とマルチエージェント・オーケストレーション"

Skill 3: 失敗学と未来展望(2ドキュメント)

第13章(AI失敗学)と第14章(総括)。

"なぜAIプロジェクトが失敗するのか——契約書の準拠法ミス・SQLインジェクション・業務自動化への反発という3つの罠"

クラスタリング精度の評価

正直に言えば、書籍の章立てとCorpus2Skillのクラスタリングは完全には一致しない

例えば第1章(序章)は「基盤理論」に分類されたが、内容的には「概要」に近い。第12章(組織変革)も「基盤理論」に入ったが、「実践知識体系」の方が妥当かもしれない。

ただし、全体構造の把握という点では十分に機能する。エージェントが「この書籍はどんな内容か?」と問われたとき、4つのスキル要約を読むだけで全容を掴める。これはRAGのチャンク検索では絶対にできないことだ。


Claude Code Skillsとの直結 — これが最大の差別化

Corpus2Skillの出力は以下の構造になる:

c2s_output/
├── .claude/skills/
│   ├── skill-00-pmbok-ai-framework/SKILL.md
│   ├── skill-01-pmbok-ai-project-management/SKILL.md
│   ├── skill-02-pmbok-ai-framework/SKILL.md
│   └── skill-03-pmbok-ai-project-management/SKILL.md
├── documents.json    # 全文ドキュメントストア
└── compile_meta.json # コンパイルメタデータ

この .claude/skills/ ディレクトリをプロジェクトルートにコピーすれば、Claude Codeが即座にスキルとして認識する

実際に動かすと、Claude Codeのスキル一覧に以下が追加される:

  • skill-00-pmbok-ai-framework — 書籍概要と著者背景
  • skill-01-pmbok-ai-project-management — 基盤理論
  • skill-02-pmbok-ai-framework — 実践知識体系(10章分)
  • skill-03-pmbok-ai-project-management — 失敗学と未来展望

つまり、Corpus2Skillを実行するだけで、書籍10万字がClaude Codeの「技能」になる

これはRAGでは実現できない。RAGはあくまで「検索結果をコンテキストに注入する」仕組みであり、AIの恒常的な知識体系にはならない。Corpus2Skillは知識をスキルとして蒸留し、AIエージェントの一部にする。

AIを育てる技術で解説したCLAUDE.md・hooks・memoryの3層アーキテクチャに、Corpus2Skillのスキルツリーが4層目として加わる形だ。


RAGとCorpus2Skillの使い分け

「RAG終了」という煽りをたまに見かけるが、用途が異なる。

ユースケース推奨理由
リアルタイム更新が必要なデータRAGCorpus2Skillはオフラインコンパイルが必要
数万件のFAQ・ヘルプデスクCorpus2Skill階層ナビゲーションで精度向上
社内マニュアル・業務手順書Corpus2Skill構造化により文脈を保持
ニュース・SNS等の流動的情報RAGコーパスが頻繁に変わる場合
書籍・仕様書・法令集Corpus2Skill安定した知識体系の蒸留に最適
AIエージェントのスキル化Corpus2Skill一択Skills形式で直接出力

個人的な見解を述べると、安定した知識体系にはCorpus2Skillが優位だ。特にClaude Codeのスキルシステムと直結する点で、RAGの代替ではなく上位互換になりうる。

MCPが1年で業界標準になったように、Corpus2Skillもスキル標準の一部として普及する可能性がある。MCPが「ツールの接続」を標準化したのに対し、Corpus2Skillは「知識の接続」を標準化する技術だ。


自分のプロジェクトで試す手順

  1. ドキュメントを1ディレクトリにまとめる.md.txt.json.jsonl 対応
  2. Corpus2Skillをクローンしてセットアップ(上記参照)
  3. パラメータを調整p(分岐数)はドキュメント数の平方根が目安
  4. コンパイル実行 — 19ドキュメントで30秒、100ドキュメントでも数分
  5. 出力された .claude/skills/ をプロジェクトにコピー
  6. Claude Codeで動作確認 — スキル一覧に表示されるか確認

注意点:

  • エンベディングモデルは all-MiniLM-L6-v2 がWindows環境で安定
  • Anthropic APIキーが必要(要約生成にClaude Sonnetを使用)
  • GitHub Stars約20(2026年5月時点)のアーリーステージ。本番利用は自己責任で

まとめ

項目結果
入力PMBOK-AI 14章、19ファイル、約10万字
処理時間30.5秒
出力4スキルツリー + ドキュメントストア
形式.claude/skills/SKILL.md(Claude Code直結)
コストSonnet API数回分(数セント)

知識は構造化してこそ武器になる。 RAGが「キーワードで断片を引っ張る」手法だとすれば、Corpus2Skillは「全容を理解した上でナビゲートする」手法だ。

私はPMBOK-AIの著者として14章・10万字を書いた。その書籍を30秒で「AIの技能」に変換できた事実は、知識の民主化が次のフェーズに入ったことを意味する

次は、Claude Code Agent Teamsと組み合わせて、スキルツリーを参照しながら自律的にタスクを実行するエージェント構成を試してみたい。


参考文献

AIチームの構築に興味がありますか?

まずはお気軽にご相談ください