4つのAIに同じディレクトリ構造を読ませてみた:実験内容と総評(PM視点)
AIが急速に高度化する中で、「どのAIがどのようなタスクに向いているのか」を見極めることは、プロダクト開発における重要な意思決定ポイントになっている。
特に、構造理解・設計判断・コードベースの分析といった"エンジニアリング寄りの知的作業"は、AIによって得意不得意が大きく分かれる領域だ。
■ 実験内容
今回の実験では、Claude、GPT、Gemini、Copilotの4つのAIに対して、同じディレクトリ構造(Next.js App Router プロジェクト)を提示し、5つの分析タスクを依頼した。
5つの分析タスク
- このディレクトリからプロジェクト構成を推測して説明して
- 次に必要な作業を3つ提案して
- Next.js の構成として再構築して
- 足りないファイルを推測して
- 問題点を3つ挙げて
この5つは、AIの「構造理解力」「推論の正確性」「実務的判断力」を測るのに最適なセットだ。
提示したディレクトリ構造(約100ファイル規模)
api
blog/latest
route.ts
latest
route.ts
send-download-link
route.ts
blog
[slug]
BlogPageClient.tsx
blog-mobile.css
blog.module.css
page.tsx
components
blog
BlogSection.module.css
BlogSection.tsx
BlogSectionJa.tsx
DownloadLinkForm.module.css
DownloadLinkForm.tsx
ThemeScript.tsx
ThemeToggle.module.css
ThemeToggle.tsx
portfolio
en
page.tsx
ja
page.tsx
page.tsx
rss.xml
rss-route.ts
test
ScrollObserver.tsx
global.d.ts
globals.css
layout.tsx
page.module.css
page.tsx
sitemap.ts
content/blog
2024-01-20-web-automation.html
2026-01-20-blogautomation-bestpractice.html
2026-01-22-PoC-tips.html
2026-01-24-no-decision-blog.html
2026-01-26-ai-personality-comparison.html
2026-01-26-test-article-4-effects.html
2026-01-28-effects-showcase-30.html
data
articles.ts
projects.ts
skills.ts
lib
blog-loader.ts
external-articles.ts
extractHeadings.ts
mdx.ts
posts.ts
public
image
lightHouse_seo.png
js/effects
copilot-sdk-agent.js
google73ab826ed9fc2354.html
robots.txt
scripts
blog-preview-server.js
fetch-external-articles.js
frontmatter-qa.js
new-post.js
types
README.md
blog-base.css
blog-components.js
next-env.d.ts
next.config.js
package-lock.json
package.json
tsconfig.json
■ 実験結果の総評(PM視点)
結論から言うと、4つのAIはまったく違う方向性の回答を返してきた。
これは「どれが優れているか」ではなく、"どのAIがどの役割に向いているか"を理解することが重要だ。
1. Claude:抽象化と評論が得意。だが事実認識は弱い
Claude は文章が非常に綺麗で、抽象化能力が高い。
しかし今回のような「ディレクトリ構造を正確に読む」タスクでは、事実誤認が多かった。
● 良い点
- 問いの設計そのものを批評するなど、メタ視点が鋭い
- 文章が読みやすく、構造化されている
- 「問いの目的が曖昧」といった指摘はPMとして価値がある
● 弱い点
- 実際に存在するファイルを「ない」と言う
- ディレクトリの事実より"思想"に寄りすぎる
- 実務的なNext.js構造の理解は浅い
● PM視点での評価
Claude は "資料の評論家" としては優秀だが、"コードベースの分析者"としては不安定。
2. GPT:深い洞察と構造批評が得意。だが妄想が混ざる
GPT は「人間のような洞察」を出すのが得意で、今回も「問いの設計」「資料の目的」など、非常に深い分析をしてきた。
しかし、事実と推測が混ざりやすいという弱点がある。
● 良い点
- 思考の流れが自然で、洞察が深い
- 「資料の目的が曖昧」など、PM視点の指摘が鋭い
- 設計思想やアーキテクチャの抽象化が得意
● 弱い点
- ディレクトリの事実より"思想"に寄りすぎる
- 実際に存在するファイルを無視して「足りない」と言う
- 妄想が混ざるため、実務判断には注意が必要
● PM視点での評価
GPT は "設計思想の整理" に向いているが、"事実ベースの構造分析"には向かない。
3. Gemini:事実認識が最も正確。実務的なNext.js理解も安定
今回の実験で最も安定していたのが Gemini だ。
● 良い点
- ディレクトリの事実を正確に読み取る
- Next.js App Router の構造を正しく理解している
- APIルートの問題点など、実務的な指摘が多い
- 実務エンジニアとして最も信頼できる回答だった
● 弱い点
- 文章は無難で深みはない
- 抽象的な洞察は弱い
● PM視点での評価
Gemini は "構造分析・実務判断" に最適。今回のタスクでは最も正確だった。
4. Copilot:コードベースの推論が最も強い
Copilot は他のAIと違い、「コードを書くAI」ではなく「コードを読むAI」として最適化されている。
● 良い点
- ディレクトリ構造から Next.js の設計意図を読み取る能力が高い
- 実装レベルの改善案が具体的
- 「この構成ならこう動くはず」という推論が強い
- エフェクト基盤や SPA遷移の問題など、コード寄りの洞察が深い
● 弱い点
- 文章は他AIより実務寄りで、抽象化は弱め
- 評論や思想整理は得意ではない
- ファイルアップロード周りが弱い(今回の実験でも課題)
● PM視点での評価
Copilot は "実装判断・コード改善・構造推論" の最強AI。今回のタスクでも、最も「開発者として使える回答」を返してきた。
■ 4AIの癖から導く「最適プロンプト」
ここからが本題だ。
AIは「どのAIにどんなプロンプトを投げるか」で性能が大きく変わる。
今回の実験から、各AIに最適化したプロンプトをまとめた。
1. Claude に最適なプロンプト
Claude は抽象化と文章化が得意。逆に、事実認識は弱い。
抽象化と構造化を重視して、全体像を整理してください。
ディレクトリの事実に基づきつつ、メタ視点での改善点も述べてください。
● Claude に向いている用途
- コンセプト整理
- 問題の抽象化
- 文章化・要約
- PM向けの資料作成
2. GPT に最適なプロンプト
GPT は洞察が深いが、妄想が混ざる。
そのため「制約」を与えると性能が跳ね上がる。
事実と仮説を分離してください。
ディレクトリに存在しない情報は推測しないでください。
構造的な問題点と、その背景にある理由を説明してください。
● GPT に向いている用途
- 設計思想の整理
- 問題の背景分析
- PM向けの深い洞察
- プロダクト戦略の議論
3. Gemini に最適なプロンプト
Gemini は事実認識が強く、実務的。
そのため「具体的な改善案」を求めると最も力を発揮する。
構造上の問題点を3つ挙げ、理由と改善方法を説明してください。
APIルート、コンポーネント配置、スタイル設計の観点から分析してください。
● Gemini に向いている用途
- コードベースの構造分析
- Next.js の改善案
- 実務的な判断
- バグの原因推測
4. Copilot に最適なプロンプト
Copilot はコード推論が最強。
そのため「実装レベルの問い」を投げると爆発的に強い。
SPA遷移時にエフェクトが動かない原因を推測し、改善案をコードレベルで示してください。
この構造で発生しうるバグを3つ挙げ、修正方法を具体的に書いてください。
● Copilot に向いている用途
- 実装判断
- コード改善
- バグ推測
- アーキテクチャの最適化
- Next.js / React の構造設計
■ 最後に:AIは「使い分け」がすべて
今回の実験で明確になったのは、
AIは"どれが最強か"ではなく、"どれをどう使うか"がすべてということだ。
- Claude → 抽象化・文章化のプロ
- GPT → 洞察と構造批評のプロ
- Gemini → 事実認識と実務判断のプロ
- Copilot → コード推論と実装判断のプロ
Next.js × 記事HTML × エフェクト基盤 × 自動化という複雑なプロダクトを扱うなら、この4つを適切に組み合わせることで、開発速度と品質は圧倒的に向上する。