三个爆火的 Claude Code 工具，我全装了才发现：它们根本不是一个赛道的东西

最近三个 Claude Code 工具爆火了：Garry Tan 的 gstack（54.6K ⭐）、Jesse Vincent 的 Superpowers（121K ⭐），还有 Every Inc 的 Compound Engineering（11.5K ⭐）。

我把三个仓库都过了一遍，结论是：大多数人装了一个就觉得够了，但它们解决的是三个完全不同的问题。

打个比方你就懂了：gstack 是你的主厨加试菜员，Superpowers 是厨房的流程手册，CE 是每个员工上班前都要翻一翻的菜谱本。

你请了个顶级厨师，但没有菜谱本。结果就是每个新来的厨师都会重蹈覆辙，犯前人已经踩过的坑。

先搞清楚 Agent 架构的四层职责

Anthropic 在 2025 年 11 月发过一篇工程博客，讲长时间运行的 Agent 该怎么搭。他们的架构分两部分：一个负责拆解任务的初始化 Agent，加上后续负责执行的编码 Agent。

我用一个餐厅的比喻把它扩展成四层职责：

•主厨决定菜单（规划）

•厨房团队做菜（执行）

•独立的试菜员检查质量（评估）——你不能让厨师自己评价自己的菜

•交班笔记留给早班（跨会话状态）

这里面有个关键发现：自己评估自己工作的人，会系统性过度乐观。就像厨师评价自己的菜，永远是"好吃"。做的人和检查的人必须分开。

用这套架构，Agent 自主构建了一个拥有 200+ 可验证功能的完整应用。

gstack：决策层 + 测试层

gstack 在规划和评估上做得很强。

/plan-ceo-review 和 /plan-eng-review 是你的主厨。一个从产品角度问"这东西值得做吗？"，另一个从架构角度问"以后会不会炸？"两道门都过了才能开工。

一个实用技巧

运行 /office-hours 之前，先给 AI 这个提示词：

"我要开始这个项目了。采访我，直到你对'我真正想要什么'有 95% 的把握，而不是'我觉得我应该想要什么'。"

让 AI 来问你，而不是你去问 AI。

大多数项目失败，原因只有一个：一开始就没搞清楚该做什么。AI 采访你，比你给 AI 写提示词有效 10 倍。

真实浏览器测试

Anthropic 在 Web 应用测试场景中发现，明确要求基于浏览器的端到端测试，比仅依赖代码级检查效果好得多。

Garry Tan 说他用这套方案 60 天交付了 60 万行生产代码，每天 1-2 万行，同时还全职运营 YC（他自己的数据，仅供参考）。

但 gstack 就像一个有一流厨师和一流试菜员的餐厅，没有菜谱本。没人记录今晚出了什么问题，明天的团队从头开始，犯同样的错。

Superpowers：有流程，没记忆

Superpowers 的 121K 星证明了它的质量。头脑风暴 → 规划 → 执行 → 审查，这套流程让很多人从"跟 AI 随便聊聊"升级到了"用流程用 AI"。

从一个人人即兴发挥的厨房，变成了一本正经有菜谱和备菜清单的厨房。这进步很大。

它还包括子 Agent 驱动的开发，有独立的规格审查员和代码质量审查员。

但 Superpowers 有一个硬伤：知识不沉淀。每次会话的上下文就留在那次会话里，下次会话开始时，上次的教训全丢了。

这就是为什么后来有了 CE。

Compound Engineering：缺失的那一层

CE 的循环是：brainstorm → plan → work → review → compound。

前四步跟 Superpowers 类似，但挖得更深。

规划阶段：翻历史，不靠猜

CE 在规划阶段，会派出并行的研究 Agent，翻你的项目历史、扫代码库模式、读 git 提交记录。

就像一个新厨师在设计明天的菜单之前，先翻完过去三个月每一条退菜投诉，而不是靠猜。

审查阶段：六人评审团

审查阶段，CE 运行一个动态审查团，至少 6 个常驻审查员，加上根据代码变更量触发的条件审查员：正确性、安全性、性能、测试、可维护性、对抗性——每个都产出独立报告。

就像同时让美食评论家、卫生检查员和顾客评审团分别品尝同一道菜。

第五步才是灵魂：/ce:compound

修完一个 bug 或完成一个功能后，运行这一个命令。它会并行启动五个子 Agent：

•上下文分析器：追踪整个对话，提取问题类型和涉及的组件

•方案提取器：记录什么不行、什么行、根因和最终修复方案

•相关文档查找器：搜索现有知识库找重复，避免重复记录

•预防策略师：识别如何预防这类问题

•分类器：给学习内容打标签和分类

五个完成后，结果合并到 docs/solutions/，结构化、可搜索。

一个真实的例子

你修了一个边缘运行时兼容性 bug，调试了好几个小时。Compound 自动记录下来：问题、症状、试过但没用的方法、最终方案、预防措施。

三周后另一个功能开发中又出现类似问题。规划阶段的研究 Agent 自动找到那条记录："之前遇到过，方案在这里。"

几小时的调试压缩成几分钟。

交班笔记 vs 菜谱本

Anthropic 的 progress 文件是今晚留给明早的交班笔记，线性的，一班接一班。

CE 的 docs/solutions/ 是每个员工入职第一天就要读、之后每天都要翻的餐厅菜谱本，任何人、任何时间都能搜。

交班笔记解决连续性。菜谱本解决积累。

一个是线性的。一个是指数级的。

"compound" 这个词的意思是复利——每个任务的输出除了代码，还有可复用的经验。你用得越久，Agent 越懂你的项目。

三层叠在一起

三者有不同的重心，没有硬边界。gstack 强在决策和真实 QA，Superpowers 带来结构化工作流，CE 强在研究驱动的规划和知识复利。

怎么用？

如果你刚开始，先选一个主框架（gstack 或 CE），用熟再说。三个一起用可以，但多个技能包可能有流程冲突和命令重叠。

有经验的用户，组合流程是这样的：

1.明确需求：用 95% 把握度提示词让 AI 采访你

2./office-hours（gstack）：描述你在做什么，接受挑战

3./plan-ceo-review（gstack）：产品关——值得做吗？

4./plan-eng-review（gstack）：架构关——以后会炸吗？

5./ce:brainstorm（CE）：探索需求和方案

6./ce:plan（CE）：研究 Agent 扫描项目历史，出详细计划

7./ce:work（CE）：带任务追踪执行

8./ce:review（CE）：动态审查团

9./qa（gstack）：真实浏览器测试

10./ce:compound（CE）：沉淀经验

11.发布

第 1-4 步确保做对的东西。第 5-9 步确保做对。第 10 步确保下次做得更快。