三个爆火的 Claude Code 工具,我全装了才发现:它们根本不是一个赛道的东西

最近三个 Claude Code 工具爆火了:Garry Tan 的 gstack(54.6K ⭐)、Jesse Vincent 的 Superpowers(121K ⭐),还有 Every Inc 的 Compound Engineering(11.5K ⭐)。

我把三个仓库都过了一遍,结论是:大多数人装了一个就觉得够了,但它们解决的是三个完全不同的问题。

打个比方你就懂了:gstack 是你的主厨加试菜员,Superpowers 是厨房的流程手册,CE 是每个员工上班前都要翻一翻的菜谱本。

你请了个顶级厨师,但没有菜谱本。结果就是每个新来的厨师都会重蹈覆辙,犯前人已经踩过的坑。

先搞清楚 Agent 架构的四层职责

Anthropic 在 2025 年 11 月发过一篇工程博客,讲长时间运行的 Agent 该怎么搭。他们的架构分两部分:一个负责拆解任务的初始化 Agent,加上后续负责执行的编码 Agent。

我用一个餐厅的比喻把它扩展成四层职责:

•主厨决定菜单(规划)

•厨房团队做菜(执行)

•独立的试菜员检查质量(评估)——你不能让厨师自己评价自己的菜

•交班笔记留给早班(跨会话状态)

这里面有个关键发现:自己评估自己工作的人,会系统性过度乐观。就像厨师评价自己的菜,永远是"好吃"。做的人和检查的人必须分开。

用这套架构,Agent 自主构建了一个拥有 200+ 可验证功能的完整应用。

gstack:决策层 + 测试层

gstack 在规划和评估上做得很强。

/plan-ceo-review 和 /plan-eng-review 是你的主厨。一个从产品角度问"这东西值得做吗?",另一个从架构角度问"以后会不会炸?"两道门都过了才能开工。

一个实用技巧

运行 /office-hours 之前,先给 AI 这个提示词:

"我要开始这个项目了。采访我,直到你对'我真正想要什么'有 95% 的把握,而不是'我觉得我应该想要什么'。"

让 AI 来问你,而不是你去问 AI。

大多数项目失败,原因只有一个:一开始就没搞清楚该做什么。AI 采访你,比你给 AI 写提示词有效 10 倍。

真实浏览器测试

Anthropic 在 Web 应用测试场景中发现,明确要求基于浏览器的端到端测试,比仅依赖代码级检查效果好得多。

Garry Tan 说他用这套方案 60 天交付了 60 万行生产代码,每天 1-2 万行,同时还全职运营 YC(他自己的数据,仅供参考)。

但 gstack 就像一个有一流厨师和一流试菜员的餐厅,没有菜谱本。没人记录今晚出了什么问题,明天的团队从头开始,犯同样的错。

Superpowers:有流程,没记忆

Superpowers 的 121K 星证明了它的质量。头脑风暴 → 规划 → 执行 → 审查,这套流程让很多人从"跟 AI 随便聊聊"升级到了"用流程用 AI"。

从一个人人即兴发挥的厨房,变成了一本正经有菜谱和备菜清单的厨房。这进步很大。

它还包括子 Agent 驱动的开发,有独立的规格审查员和代码质量审查员。

但 Superpowers 有一个硬伤:知识不沉淀。每次会话的上下文就留在那次会话里,下次会话开始时,上次的教训全丢了。

这就是为什么后来有了 CE。

Compound Engineering:缺失的那一层

CE 的循环是:brainstorm → plan → work → review → compound。

前四步跟 Superpowers 类似,但挖得更深。

规划阶段:翻历史,不靠猜

CE 在规划阶段,会派出并行的研究 Agent,翻你的项目历史、扫代码库模式、读 git 提交记录。

就像一个新厨师在设计明天的菜单之前,先翻完过去三个月每一条退菜投诉,而不是靠猜。

审查阶段:六人评审团

审查阶段,CE 运行一个动态审查团,至少 6 个常驻审查员,加上根据代码变更量触发的条件审查员:正确性、安全性、性能、测试、可维护性、对抗性——每个都产出独立报告。

就像同时让美食评论家、卫生检查员和顾客评审团分别品尝同一道菜。

第五步才是灵魂:/ce:compound

修完一个 bug 或完成一个功能后,运行这一个命令。它会并行启动五个子 Agent:

•上下文分析器:追踪整个对话,提取问题类型和涉及的组件

•方案提取器:记录什么不行、什么行、根因和最终修复方案

•相关文档查找器:搜索现有知识库找重复,避免重复记录

•预防策略师:识别如何预防这类问题

•分类器:给学习内容打标签和分类

五个完成后,结果合并到 docs/solutions/,结构化、可搜索。

一个真实的例子

你修了一个边缘运行时兼容性 bug,调试了好几个小时。Compound 自动记录下来:问题、症状、试过但没用的方法、最终方案、预防措施。

三周后另一个功能开发中又出现类似问题。规划阶段的研究 Agent 自动找到那条记录:"之前遇到过,方案在这里。"

几小时的调试压缩成几分钟。

交班笔记 vs 菜谱本

Anthropic 的 progress 文件是今晚留给明早的交班笔记,线性的,一班接一班。

CE 的 docs/solutions/ 是每个员工入职第一天就要读、之后每天都要翻的餐厅菜谱本,任何人、任何时间都能搜。

交班笔记解决连续性。菜谱本解决积累。

一个是线性的。一个是指数级的。

"compound" 这个词的意思是复利——每个任务的输出除了代码,还有可复用的经验。你用得越久,Agent 越懂你的项目。

三层叠在一起

三者有不同的重心,没有硬边界。gstack 强在决策和真实 QA,Superpowers 带来结构化工作流,CE 强在研究驱动的规划和知识复利。

怎么用?

如果你刚开始,先选一个主框架(gstack 或 CE),用熟再说。三个一起用可以,但多个技能包可能有流程冲突和命令重叠。

有经验的用户,组合流程是这样的:

1.明确需求:用 95% 把握度提示词让 AI 采访你

2./office-hours(gstack):描述你在做什么,接受挑战

3./plan-ceo-review(gstack):产品关——值得做吗?

4./plan-eng-review(gstack):架构关——以后会炸吗?

5./ce:brainstorm(CE):探索需求和方案

6./ce:plan(CE):研究 Agent 扫描项目历史,出详细计划

7./ce:work(CE):带任务追踪执行

8./ce:review(CE):动态审查团

9./qa(gstack):真实浏览器测试

10./ce:compound(CE):沉淀经验

11.发布

第 1-4 步确保做对的东西。第 5-9 步确保做对。第 10 步确保下次做得更快。