74日間で88万メッセージ。15万回のツールコール。549セッション。5つの商用プロジェクトを並行運用。
これが、私がClaude Codeで開発を回してきた実績だ。誇張ではなく、Claude Codeの利用ログから取れる生のデータだ。
AIエージェントに開発を任せる時代が本格的に到来する中、この領域で激突しているのがCodex CLIとClaude Codeだ。両者ともマルチエージェント機能を搭載しているが、そのアプローチと設計思想はまったく異なる。
本記事では、AIモデルの最新状況から、両ツールのアーキテクチャ比較、そして5プロジェクトを並行運用してきた現場での具体的な使い分けまでを徹底解説する。

1. AIモデルの現在地:性能横並び時代の新しい選び方
2026年3月にリリースされたGPT-5.4は、コンテキストウィンドウが105万トークンへと拡張され、ネイティブでコンピュータユース(ブラウザやデスクトップ操作)に対応した。OSのデスクトップ操作ベンチマークでは人間のスコアを超え、75.0%を記録している。
しかし、GPT-5.4が「一強」かといえばそうではない。コーディングや推論のベンチマークにおいては、GPT-5.4、Opus 4.6、Gemini 3.1 Proの3大トップモデルは、ほぼ2〜3%の差しかない。 性能は完全に横並び状態だ。
そのため、モデルは「賢さ」ではなく**「得意領域と使い勝手」**で選ぶ時代になっている。
| モデル | 得意領域 | 選ぶ理由 |
|---|---|---|
| GPT-5.4 | コンピュータユース | ブラウザテスト自動化、デスクトップ操作 |
| Gemini 3.1 Pro | バッチ処理 | コストパフォーマンスが圧倒的 |
| Opus 4.6 | 深い推論・設計判断 | プロダクションコードの品質 |
私がClaude Codeを選んでいるのは、Opus 4.6の推論品質もさることながら、エージェントアーキテクチャの設計力が現場で決定的な差を生むからだ。
2. Codex CLI:数と並列処理で押し切る「自動スポーン」
Codex CLIのマルチエージェント機能は、メインエージェントがオーケストレーターとなり、必要に応じて**自動でサブエージェントを生成(スポーン)**する設計だ。
3つの生成アプローチ
| アプローチ | 概要 | 向いている作業 |
|---|---|---|
| Spawn Agent | 1体のサブエージェントで単一タスク実行 | 個別の調査・実装 |
| Spawn Team | 複数エージェントを並列に立ち上げ | フロントエンドのコンポーネント並列作成 |
| Spawn CSV | CSVから大量バッチジョブを一括処理 | 50ファイルの大規模リファクタリング |
Spawn CSVは、CSVファイルに記述した大量の定型作業を一括でエージェントに流し込む機能だ。大規模なリファクタリングや移行作業では圧倒的な威力を発揮する。
強みと「暴走」の課題
Codex CLIの最大の強みは、OS直結のサンドボックスによる物理的な安全性だ。カーネルレベルでファイルシステムやネットワークを制限し、エージェントが暴走してもOSがブロックする。
一方で、深刻な課題がある。
- モデルロック: サブエージェントが親と同じモデルにロックされるため、単純なファイル探索にもGPT-5.4が使われる
- 暴走リスク: 自動生成のブレーキが効かず、研究者が1万ドル(150万円超)を消費した報告がある
- ドキュメント不足: 公式ドキュメントが追いついておらず、トラブルシュートが困難

3. Claude Code:構造と役割で制御する「3層アーキテクチャ」
Claude Codeは、数ではなく**「構造」**で勝負するアプローチだ。私が5プロジェクトを並行運用できているのは、この3層構造の設計力による。
サブエージェント(最下層)
マークダウンで独自のサブエージェントを定義できる。最大のメリットは、タスクごとにモデルを選べる点だ。
私の実運用では以下のように使い分けている。
| タスク | モデル | 理由 |
|---|---|---|
| ファイル検索・コード調査 | Haiku | 安価で十分な精度 |
| ブログ執筆・コンテンツ生成 | Sonnet | コストと品質のバランス |
| 設計判断・複雑なリファクタリング | Opus | 最高品質の推論が必要 |
Codex CLIでは全タスクに最上位モデルが使われるが、Claude Codeでは8割のタスクをHaikuやSonnetで回せる。コスト差は月額で数万円に及ぶ。
エージェントチーム(中間層)
複数のエージェントが共有タスクリストとメールボックスを通じて直接やり取りし、自己調整型で仕事を進める。
以前の記事で書いた通り、私はPMBOK-AIの動画コンテンツ制作で4つのAIエージェント(台本担当・スライド担当・Web編集担当・品質保証担当)を並行運用している。この体制を支えているのがAgent Teamsだ。
ポイントはファイルロック。2つのエージェントが同じファイルを触った瞬間に片方の変更が消えるという事故を、ファイル所有権マトリックスで防いでいる。
Agent SDK(最上層)
PythonやTypeScriptから機能を直接呼び出し、独自の自動化ワークフローを構築できる。CI/CDパイプラインへの組み込みや、社内ツールとの連携に使う。

4. 安全性の設計思想:「壁」か「網」か
両者の安全性へのアプローチは根本的に異なる。
Codex CLI:OSの「壁」で守る
カーネルレベルのサンドボックスで物理的に制限する。エージェントがどんなコマンドを実行しようと、OSが許可していない操作はブロックされる。シンプルで強力だが、正当な操作もブロックされることがある。
Claude Code:運用の「網」で守る
- Gitワークツリー分離: 各エージェントが別ブランチで作業し、本番ブランチに直接触れない
- フックシステム:
rm -rfやgit push --forceなどの危険操作を事前にブロック - 永続メモリ: 前回のセッション内容を引き継ぎ、過去の失敗パターンを学習
私の .claude/settings.json には、git push 前にレビューを挟むフックや、TypeScriptのビルドチェックを自動実行するフックが設定されている。使い込むほど安全網が厚くなるのがClaude Codeの特性だ。
5. 現場のリアル:88万メッセージから見えたこと
私がClaude Codeで5プロジェクト(大手ITインフラ、通信SaaS、Webサイト構築など)を回してきた実データを公開する。2台のマシン(ラップトップ+デスクトップ)のClaude Code利用ログをマージした数値だ。
| 指標 | 数値 |
|---|---|
| 総メッセージ数(74日間) | 882,670 |
| 総ツールコール数 | 151,400 |
| 総セッション数 | 549 |
| 稼働日数 | 74日 |
| 1日あたり平均メッセージ数 | 11,928 |
| 1日最大メッセージ数 | 63,416(2026-02-25) |
| 1日最大セッション数 | 46(2026-03-03) |
| 並行プロジェクト数 | 5 |
| AI社員の月額コスト | Claude Code MAX $200 |

AI導入の「失敗」から学んだ3つのルール
88万メッセージの裏には、数え切れない失敗がある。AI活用で痛感した失敗と教訓でも書いたが、特に重要な3つを改めて共有する。
1. 入口の品質管理
AIへの指示が曖昧だと、出力も曖昧になる。「いい感じのダッシュボード作って」ではなく、「Next.js App Routerで、管理者がユーザー一覧をページネーション付きで閲覧できる画面を、Tailwind CSSで実装して」と指示する。プロンプトの30分を惜しんで、実装の3時間を失うのは最もよくある失敗パターンだ。
2. 人間レビュー必須
AIの成果物をそのままデプロイしてはいけない。Vibe Codingの先にあるもので書いた通り、商用開発はお金をもらう以上、品質への責任が伴う。AI社員がプルリクエストを出し、PM(人間)がレビューする。このフローを崩さない。
3. 段階的導入
最初から全部をAIに丸投げしない。コンテキストウィンドウが大きくなったとはいえ、セッションが長くなるほど品質は下がる。機能ごとにセッションを切り、設計→実装→レビューのサイクルを小さく回す。
6. 比較まとめ:あなたに合うツールはどっち?
| 比較軸 | Codex CLI | Claude Code |
|---|---|---|
| 設計思想 | 自動生成で数を回す | 構造で質を制御する |
| 並列制御 | 自動スポーン | 手動起動 + タスクリスト |
| モデル選択 | 親と同一モデル固定 | タスクごとに選択可能 |
| 安全性 | OSサンドボックス(壁) | ワークツリー + フック(網) |
| コスト予測 | 暴走リスクあり | 手動制御で予測しやすい |
| 学習曲線 | 低い(自動で動く) | やや高い(設計が必要) |
| 向いている人 | 大規模バッチ処理 | PM主導のプロジェクト運用 |
ハイブリッド運用という選択肢
最も先進的な開発者の間で推奨されているのが、両方の強みを組み合わせたハイブリッドワークフローだ。
- 設計・オーケストレーション → Claude Code(Opus): 曖昧な要望からしっかりした設計を組み立てる
- 大規模一括適用 → Codex CLI: Claudeが作った設計を元に、50ファイルのリファクタリングを力技で押し切る
ただし、私の現場ではClaude Code単体で完結している。理由はコスト予測と安全性だ。月額$200のClaude Code MAXで、5プロジェクトを品質を保ちながら運用できている。暴走リスクのあるツールを商用プロジェクトに投入する判断は、PMとしてはまだ取れない。

まとめ:エージェントアーキテクチャが開発効率を決める時代
モデルの性能が収束した2026年、開発効率に差をつけるのは**「エージェントアーキテクチャの設計力」と「PMがいかにAI社員をマネジメントするか」**だ。
個人開発から始めるなら、コストと安全性が読みやすいClaude Codeのサブエージェントから入門するのがおすすめだ。業務効率化の「型」ができたら、Codex CLIによる大規模並列開発へとステップアップしていける。
AIがコードを書く時代に、PMが身につけるべきスキルの優先順位はAIプロジェクトマネジメント実践ガイドで解説している。AI社員をチームに組み込む具体的な方法はClaude Code Agent Teamsの実践記録をご覧いただきたい。
関連記事: Vibe Codingの先にあるもの | AI社員導入ガイド | PMBOK-AIとは