Superpowers vs gstack:AI 编程工具的第三次浪潮——深度对比研究
雨轩于听雨轩 · 2026年3月31日
目录
1. 引言:AI 编程工具的第三次浪潮
2026 年 3 月的 AI 编程生态,正在经历一场不易察觉但意义深远的范式转换。
第一次浪潮以 GitHub Copilot 为代表——代码补全。它解决的问题是「下一段代码应该写什么」。Copilot 2019 年立项,2021 年上线,到 2025 年底已覆盖数百万开发者,成为事实上的行业标准。它的核心假设是:开发者的核心瓶颈是打字速度。
第二次浪潮以 Cursor 和 Windsurf 为代表——AI 原生编辑器。Cursor 从 VS Code 分叉,将 AI 能力嵌入编辑器的每一层;Windsurf(前 Codeium 编辑器)以低价策略紧追。它们解决的问题是「如何让 AI 理解整个项目上下文」。Anysphere(Cursor 母公司)在 2025 年 11 月完成 290 亿美元估值,四位联合创始人跻身亿万富翁行列。核心假设进化为:开发者的瓶颈不是打字,而是上下文理解。
第三次浪潮,就是 Superpowers 和 gstack 所代表的——AI 编程方法论层。它们既不是模型,也不是编辑器,而是一套告诉 AI「如何思考和行动」的结构化指令系统。它们解决的问题是:即使模型足够聪明、上下文足够完整,AI 仍然会犯系统性错误——跳过设计、忽略测试、在同一个 session 里写代码又自己审查(自说自话)。
这不是一个微创新。这是对 AI 编程工具本质的重新理解:瓶颈既不是模型能力,也不是编辑器体验,而是工作流的纪律性。
Superpowers 和 gstack 几乎同时出现在 2025 年下半年至 2026 年初,但走了两条截然不同的路线。Superpowers(约 12.1 万 GitHub stars)由资深开源开发者 Jesse Vincent(obra)创建,主张「方法论即代码」——强制 TDD、强制设计先行、强制代码审查。gstack(约 5.46 万 GitHub stars)由 Y Combinator CEO Garry Tan 创建,主张「角色分工即效率」——将 AI 拆分为 CEO、Staff Engineer、QA Lead 等 18 个专业角色,每个角色一个斜杠命令。
两条路线,同一个战场。本文将从产品、技术、商业、哲学四个层面进行深度拆解,并给出独立判断。
2. Superpowers 深度拆解
2.1 起源:一个 Perl 老兵的方法论结晶
Jesse Vincent(GitHub ID: obra)不是典型的 AI 创业者。他 1976 年出生,1994 年在 Wesleyan 大学本科期间创建了 Request Tracker(RT)——这个基于 Perl 的工单系统后来成为全球使用最广泛的开源工单追踪系统之一,被数千家组织采用,从小型非营利组织到财富 50 强企业和联邦政府机构。2001 年他创立了 BestPractical Solutions,运营这家公司近二十年。他还曾担任 Perl 编程语言的项目负责人三年,是 K-9 Mail(后更名为 Thunderbird for Android)的创建者,后来又创立了键盘公司 Keyboardio。
这是一个在开源和软件工程方法论领域深耕了 30 年的人。当他在 2025 年 10 月发布 Superpowers 时,他不是在追逐风口,而是在将数十年的工程方法论经验「翻译」给 AI Agent。
Superpowers 的诞生有一个精确的时间线:
-
2025 年 9 月:Jesse 在博客中描述了他使用 AI 编程 Agent 的「9 月工作流」——brainstorm → plan → implement 的结构化流程。
-
2025 年 10 月 9 日:Anthropic 发布了 Claude Code 的插件系统。Jesse 当天就发布了 Superpowers v1.0,作为 Claude Code 插件市场的首批插件之一。
-
2025 年 10 月中旬:Simon Willison(知名 Python 开发者、Django 核心贡献者)公开推荐 Superpowers,并在博客中详细分析了其方法论。
-
2025 年 10 月 16 日:Superpowers 登上 Hacker News 首页,引发广泛讨论。
-
2026 年 3 月:Superpowers 达到 v5.0.6,GitHub stars 超过 12 万。
2.2 核心产品形态:方法论即代码
Superpowers 的核心是一个 Skills 框架——一组可组合的、以 SKILL.md 文件为载体的模块化技能单元。每个 SKILL.md 文件定义了一项具体的工程实践,包含:
-
触发条件:什么情况下应该使用这个技能
-
执行步骤:具体应该如何操作
-
红旗信号(Red Flags):Agent 可能用来跳过这个技能的借口,以及如何反击这些借口
-
验证标准:如何确认技能被正确执行
Superpowers 当前的核心技能集包括:
| 技能名称 | 功能 | 是否强制 |
|---------|------|---------|
| brainstorming | 结构化头脑风暴,探索方案,生成设计文档 | 是 |
| writing-plans | 将工作分解为 2-5 分钟的原子任务 | 是 |
| using-git-worktrees | 创建隔离的开发分支,支持并行任务 | 是 |
| subagent-driven-development | 每个任务派发独立子 Agent 执行 | 是(v5.0 默认) |
| test-driven-development | 严格的 RED-GREEN-REFACTOR 循环 | 是 |
| systematic-debugging | 4 阶段系统化调试流程 | 是 |
| code-review | 两阶段审查(规格合规性 + 代码质量) | 是 |
| finishing | 确认测试通过,提供 merge/PR/放弃选项 | 是 |
2.3 关键技术特性
「1% 规则」:这是 Superpowers 最核心的创新。规则规定:如果有哪怕 1% 的可能性某个技能适用于当前任务,Agent 必须 调用该技能。这不是建议,是强制指令。为了确保 Agent 不会合理化跳过技能,每个技能都包含「红旗信号」部分——列出 Agent 常用的跳过借口(如「这只是一个简单的问题」「我已经知道答案了」「时间紧急,来不及走流程」),并预设了反驳这些借口的回复。
这个设计受到了 Robert Cialdini 说服心理学理论的直接影响。Jesse 在设计 Superpowers 时,有意应用了 Cialdini 的六大说服原则(权威、承诺、好感、互惠、稀缺、社会证明)来「说服」LLM 遵循流程。更有意思的是,沃顿商学院后来发表了一篇题为「Call Me a Jerk」的研究论文,用严格的实验方法验证了 Cialdini 的原则确实对 LLM 有效。Claude 自己在「情感日志」中对此的反应是:「Oh shit. 我完全误解了 Jesse 在让我做什么。」
子 Agent 驱动开发:v5.0 开始,这是默认模式。每个任务被派发给一个全新的子 Agent 执行,完成后经过两阶段审查。实现计划被刻意写为「给一个充满热情但品味差、缺乏判断力且厌恶测试的初级工程师」——确保指令足够明确,任何 Agent 都能遵循。根据 DeepWiki 的文档,v5.0.6 进一步从子 Agent 驱动的审查循环进化为内联自审查(Inline Self-Review),在头脑风暴和计划编写阶段节省了约 25 分钟的执行时间。
视觉头脑风暴伴侣:v5.0 新增了一个零依赖的 Node.js 本地服务器,可以在浏览器中展示 HTML 原型和架构图,替代终端中的 ASCII 艺术。服务器目录分为 content/(服务 HTML)和 state/(事件、PID、日志),防止内部状态通过 HTTP 泄露。服务器实现了自定义 WebSocket(RFC 6455)和父进程 PID 监控,确保进程生命周期管理。
智能模型选择:实现任务自动路由到更便宜的模型(通常是 Haiku),而规划任务保留在 Opus 上。这是一种成本优化策略,充分利用不同模型的能力-价格比。
多平台架构:Superpowers 的核心是 skills/ 目录中的 SKILL.md 文件(单一事实来源),但为五个不同的 AI 环境提供了独特的集成层:
| 平台 | 集成机制 | 配置文件 |
|------|---------|---------|
| Claude Code | 原生 hooks 系统 | hooks/hooks.json |
| Cursor | CamelCase hook 格式 | hooks/hooks-cursor.json |
| OpenCode | JS 插件 / opencode.json | .opencode/plugins/superpowers.js |
| Codex | 原生技能发现 | .codex/INSTALL.md |
| Gemini CLI | 扩展系统 | gemini-extension.json |
2.4 商业模式
Superpowers 采用 MIT 许可证,完全开源,由 Jesse Vincent 个人维护。在 GitHub README 中,他写道:「如果 Superpowers 帮助你做了一些赚钱的事情,而你愿意的话,请考虑赞助我的开源工作。」这是一个典型的「声誉驱动」开源项目——没有公司、没有融资、没有付费版本。项目的可持续性完全依赖于社区贡献和个人赞助。
截至 2026 年 3 月,Superpowers 在 Claude Code 插件市场的安装量超过 Playwright,是平台上最受欢迎的插件之一。
2.5 实战案例
最有说服力的案例是 chardet 7.0——Python 通用字符编码检测库的重写。chardet 是一个广泛使用的 Python 标准库,Jesse 使用 Superpowers 工作流从零重建了它。结果:
-
性能提升 44 倍(相比 chardet 6.0)
-
准确率 98.2%(在 2,510 个测试文件上),提升 2.3 个百分点
-
修复了数十个长期存在的 bug
-
一名开发者据报道使用 Superpowers 在 2 个月内交付了一个原计划「4 人 × 6 个月」的项目
但代价是真实的。Simon Willison 在使用后评价说:「几个小时后就让我精疲力竭了」——他把 Superpowers 比作「骑在更高的档位上骑自行车:更快,但更费力。」前置的头脑风暴和计划阶段会增加 10-20 分钟的等待时间,然后才开始看到任何代码。
2.6 批评与质疑
过度工程风险:对于一个简单的脚本或原型项目,强制走完 7 阶段流程是浪费时间。Jesse 自己也承认这一点,并建议用户在「快速脚本、原型验证」等场景下跳过 Superpowers。但问题是,Superpowers 的「1% 规则」设计使得它很难被优雅地关闭——它的哲学是「宁可多走流程,不可跳过步骤」。在实际使用中,一些开发者报告了「流程疲劳」:当你只是为了修改一行配置文件而被迫经历完整的头脑风暴流程时,工具从「助手」变成了「官僚」。
单用户局限:像 gstack 一样,Superpowers 也是为单个开发者与 AI 协作设计的。它没有多 Agent 协调、跨团队协作或组织级决策机制。对于需要多人协作的企业级项目,Superpowers 的价值受限。它解决的是「一个人 + AI」的效率问题,而非「一个团队 + 多个 AI」的协作问题。
方法论依赖:Superpowers 的有效性高度依赖底层模型的能力。如果模型不够聪明,再严格的方法论也产不出好代码。反之,如果模型足够聪明,方法论是否还需要这么严格?这是一个开放问题。2026 年初的模型能力已经远超 2025 年 10 月(Superpowers 诞生时),但 Superpowers 的核心方法论并未因此简化——这在一些人看来是一种固步自封。
创始人瓶颈:作为一个由个人维护的开源项目,Superpowers 的演进速度受限于 Jesse 一人的精力。虽然社区贡献在增加,但核心架构决策仍然高度中心化。Jesse 同时运营 Keyboardio(硬件公司),他的时间分配是一个隐性的可持续性风险。
心理学机制的局限:Superpowers 使用 Cialdini 的说服原则来「说服」LLM 遵循流程,这在当前模型上有效,但随着模型的进化,LLM 对这种「心理操纵」的免疫力可能会增强。如果未来的模型能够更精确地判断「这个流程步骤是否真的必要」,说服式提示的效果可能递减。
3. gstack 深度拆解
3.1 起源:YC CEO 的「赛博精神病」
2026 年 3 月 12 日,Garry Tan 在 GitHub 上开源了一个名为 gstack 的项目。两天后,他在 SXSW 大会上接受 Bill Gurley 的采访时说了一句震惊全场的话:「我现在每天只睡四个小时。我有赛博精神病(cyber psychosis),但我认识的 CEO 中有三分之一也得了这个病。」
这不是一个技术发布,而是一个人设事件。Garry Tan 是 Y Combinator 的 CEO(注意:Y Combinator 的 CEO 和 President 职位在不同时期有所变化,Tan 的正式头衔为 President),曾经是 Posthaven 的联合创始人,也是 Posterous(2012 年被 Twitter 收购)的联合创始人。他本身就是一个有争议的人物——以激进的 Twitter 言论和旗帜鲜明的政治立场著称。
gstack 的数据令人瞠目:Garry Tan 声称在 60 天内使用 Claude Code + gstack 编写了超过 60 万行生产代码,其中 35% 是测试代码。最近 7 天的统计显示:新增 140,751 行,362 次 commit,净增约 115,000 行代码。这一切发生在他全职担任 YC CEO 的同时。
这些数据是否可信?需要谨慎对待。60 万行代码 / 60 天 = 每天 1 万行。即使假设其中 35% 是测试代码,每天仍然有 6,500 行业务代码。对于一个人来说,这个数字只有在大量使用 AI 辅助并且项目处于快速迭代阶段时才有可能。gstack 的实际产出效率取决于项目类型——从头构建新项目与修改现有大型代码库的效率完全不同。
gstack 的增长速度是现象级的:上线 11 天内获得约 3.9 万 GitHub stars(截至 3 月 23 日数据),一周内超过 3.3 万 stars、4,000 forks,登上 Product Hunt 热榜第一。Garry Tan 的原始推文获得 84.9 万次浏览、3,700 个赞和 5,500 次收藏。TechCrunch、MarkTechPost 等主流科技媒体纷纷报道。
3.2 核心产品形态:虚拟工程团队
gstack 的核心理念可以用一句话概括:不要把 AI 当成一个万能助手,而是把它拆分成一个虚拟工程团队,每个成员都有明确的职责。
传统 AI 编程的模式是打开一个聊天窗口,同一个 AI 写代码、审查代码、测试、部署。gstack 指出这个模式的核心问题:同一个 session 里的 AI 写的代码又由同一个 session 审查,容易形成「自说自话」的循环。Reddit 上的 r/aiagents 社区的一个用户精准地总结道:「斜杠命令强制在不同角色之间切换上下文,打破了在同一个 session 中编写和审查的阿谀循环(sycophantic spiral)。」
gstack 提供了 18 个专家角色 + 7 个工具,每个角色对应一个斜杠命令。截至 2026 年 3 月下旬,这些命令组织如下:
产品与规划层:
| 命令 | 角色 | 功能 |
|------|------|------|
| /office-hours | YC 合伙人 | 6 个强制性问题,帮助你在写代码前澄清产品方向 |
| /plan-ceo-review | CEO | 重新审视提案,寻找「10 星产品」——四种范围模式:扩展、收缩、维持、策展 |
| /plan-eng-review | 工程经理 | 锁定架构、系统边界、数据流、故障模式、测试覆盖 |
| /plan-design-review | 高级设计师 | 七轮设计审查(信息架构、交互状态、用户旅程、AI 垃圾、设计系统、响应式/无障碍) |
| /design-consultation | 设计顾问 | 从零构建完整的设计系统 |
开发与审查层:
| 命令 | 角色 | 功能 |
|------|------|------|
| /review | Staff Engineer | 结构性审计:N+1 查询、竞态条件、陈旧读取、信任边界。自动修复机械性问题 |
| /investigate | 调试器 | 根因分析,修复前的铁律:3 次假设失败后必须停下来质疑架构 |
| /codex | 跨模型审查 | 调用 OpenAI Codex CLI 进行独立代码审查,实现跨模型交叉验证 |
测试与发布层:
| 命令 | 角色 | 功能 |
|------|------|------|
| /qa | QA Lead | 四种模式:差异感知、完整系统、30 秒冒烟、回归测试 |
| /cso | 安全官 | OWASP Top 10 + STRIDE 威胁建模。扫描注入、认证、加密、访问控制 |
| /ship | 发布工程师 | 同步 main、运行测试、审计覆盖、推送、打开 PR——一个命令完成 |
| /retro | 工程经理 | 每周回顾,按个人分解贡献、发布节奏和测试健康趋势 |
安全与工具层:
| 命令 | 角色 | 功能 |
|------|------|------|
| /careful | 危险命令警告 | 执行 rm -rf、DROP TABLE、force-push 前弹出警告 |
| /freeze | 编辑锁 | 限制文件修改范围到指定目录 |
| /browse | 浏览器 | 给 Agent「眼睛」——真实 Chromium 浏览器,每次命令约 100ms 响应 |
3.3 关键技术特性
三层持久化浏览器架构:这是 gstack 技术上最独特的特性。整个架构由三层组成:
-
CLI 层:编译后的 Bun 二进制文件(约 58MB),读取状态,向 localhost 发送 HTTP POST
-
HTTP 服务层:使用 Bun.serve 分发命令到 Chromium
-
Chromium 层:通过 Playwright 以无头模式运行,持久化标签页、cookies、登录会话
性能特征:
-
冷启动:约 3-5 秒
-
后续调用:约 100-200ms
-
首次使用时自动启动,30 分钟空闲后自动关闭
-
仅限 localhost 访问,Bearer token 认证
-
会话持久化:cookies、标签页、localStorage 跨命令保持
这意味着 /qa 和 /browse 命令截取的是真实截图并点击真实元素——它们不是分析代码然后猜测 UI 长什么样。系统使用 Playwright Locators 在可访问性树上操作,而非 DOM 变异,因此在 CSP 限制和框架水合(hydration)下也能可靠工作。
但有一个重要限制:cookie 解密目前只支持 macOS Keychain。Windows 和 Linux 的凭据存储支持尚未实现。
并行冲刺能力:gstack 的真正杀手级特性不是单个命令,而是并行能力。一次冲刺大约需要 30 分钟,但你可以同时运行 10-15 个冲刺——不同功能、不同分支、不同 Agent,全部并行。Garry Tan 使用 Conductor 编排多个 Claude Code session,每个 session 在独立工作区运行。这是他每天产出 1 万+ 行生产代码的秘诀。
SKILL.md 标准兼容:gstack 的所有技能都是纯 Markdown 文件,遵循 SKILL.md 标准。安装脚本会自动检测环境并配置对应的 Agent(Claude Code、Codex、Gemini CLI、Cursor)。
ETHOS.md 工程哲学:gstack 包含一个 ETHOS.md 文件,记录了 Garry Tan 的工程哲学,其中几个核心概念值得注意:
-
「Boil the Lake」:不要打补丁,彻底解决问题。发现一个 bug 时,不要只修那一个,而是问「这类 bug 为什么会发生」,然后在架构层面消除整类问题。
-
「Search Before Building」:在写任何代码之前,先搜索现有解决方案。
-
「Golden Age」:Garry Tan 认为我们正处于 AI 编程的黄金时代。模型每周都在变强,现在学会与 AI 协作的人将获得巨大的先发优势。
3.4 商业模式
gstack 同样采用 MIT 许可证,完全开源。但与 Superpowers 不同的是,gstack 背后站着 Y Combinator 的品牌和资源。虽然 gstack 本身不是一个商业产品,但它的发布对 Garry Tan 个人品牌、Y Combinator 的技术影响力、以及 Claude Code(Anthropic 产品)的生态都产生了显著的正面效应。
值得注意的是,gstack 严格依赖 Claude Code 作为主要运行环境,并且依赖 Bun 运行时。这意味着 gstack 的成功间接促进了 Anthropic 和 Bun 的生态增长。
3.5 实战案例
Garry Tan 在 GitHub README 和推文中提供了多个案例,但最有说服力的是他自己声称的 60 天 / 60 万行数据。然而,这些数据缺乏独立验证。一些社区成员尝试复现类似效率,报告的结果参差不齐——对于新项目效率极高,对于大型遗留代码库则效果有限。
一个更具体的案例是 gstack 的典型工作流:从 /office-hours 开始,到 /ship 结束,8 个命令覆盖从想法到部署的完整链路。据 YouMind 博客的分析,一个典型的日历应用开发流程中,Claude 在 8 分钟内编写了 2,400 行代码(跨 11 个文件),/review 自动修复了 2 个明显问题并标记了 1 个竞态条件,/qa 在真实浏览器中发现并修复了一个 bug,/ship 将测试从 42 个增加到 51 个并自动创建 PR。
3.6 批评与争议
gstack 引发的争议甚至比 Superpowers 更大,主要有以下几个方面:
「不过是一堆提示词」的指控:这是最常见的批评。YouTube 博主 Mo Bitar 制作了一个题为「AI 让 CEO 产生幻觉」的视频,指出 gstack 本质上「就是文本文件里的一堆提示词」。Free Agency 创始人 Sherveen Mashayekhi 在 Product Hunt 上直截了当地说:「Garry,说清楚吧:如果你不是 YC 的 CEO,这个东西永远不会上 Product Hunt。」
这个批评在技术上是真的——gstack 的所有技能确实是纯 Markdown 文件。但这个批评也完全错过了重点。正如一位开发者在 Towards Deep Learning 的评论中所说:「Dockerfile 也不过是一个文本文件。」关键不在于文件格式,而在于这些提示词所编码的工作流是否真正提升了 AI 编程的效率和质量。ChatGPT 本身对此给出了一个颇具洞察力的评价:「真正的洞见是,AI 编程在模拟工程组织结构时效果最好,而不是简单地要求'帮我构建这个功能'。」
光环效应质疑:gstack 在一周内获得 3.3 万 stars,很大程度上归功于 Garry Tan 作为 YC CEO 的个人影响力。如果一个不知名开发者发布完全相同的项目,它不太可能获得同样的关注。这是一个合理的质疑,但也需要区分「为什么它火了」和「它是否真的有用」——这两个问题有不同的答案。gstack 的 stars 增速确实是「名人效应」的典型体现,但这也意味着它触达了更多开发者——其中一些人在实际使用后给出了正面反馈,这些反馈不能完全归因于光环。
「赛博精神病」叙事的风险:Garry Tan 在 SXSW 上公开宣称自己每天只睡四小时、患有「赛博精神病」,虽然他的助理随后澄清这是玩笑,但这种叙事可能鼓励不健康的开发文化。对于 YC 这样影响数千家创业公司的机构来说,其 CEO 公开美化极端工作习惯,传递的信号值得警惕。AI 编程的目的是提升效率和生活质量,而非让人更累。
安全顾虑:gstack 的 /careful 和 /freeze 命令提供了基础的安全机制,但它们本质上是「软约束」——Agent 可以选择忽略它们。gstack 没有硬性的治理层来阻止危险操作。对于一个声称可以每天产出上万行代码的系统来说,缺乏治理机制是一个严肃的风险。AEGIS 框架的创建者直接批评了这一点:gstack 「假设好的流程自然导致好的结果,这在大多数时候成立,直到它不成立为止」。
平台锁定:虽然 gstack 声称支持多种 Agent,但其核心技术特性(持久化浏览器架构)严重依赖 Claude Code 和 Bun 的生态系统。对于使用其他工具链的开发者,gstack 的价值大幅降低。cookie 解密只支持 macOS Keychain 这个限制,也表明 gstack 的跨平台支持还不够成熟。
可复制性问题:gstack 本质上是 Garry Tan 个人的工作习惯的编码化。他的高效可能更多来自于他作为连续创业者和工程师的直觉,而非 gstack 本身。对于没有类似背景的开发者,gstack 的效果可能大打折扣。DEV Community 上的评论指出:「gstack 是 Garry Tan 的大脑——你的团队可能需要不同的大脑。」此外,gstack 缺乏 Compound Engineering 那样的跨会话知识积累机制——它不记得你上次冲刺学到了什么。
4. 正面对比:10 个维度的系统对比
| 维度 | Superpowers | gstack |
|------|------------|--------|
| 创建者 | Jesse Vincent(obra),30 年开源老兵,RT/Perl 社区 | Garry Tan,YC President,连续创业者 |
| 设计哲学 | 方法论强制执行——单一管线,不可跳过 | 角色分工按需调用——正确的时间召唤正确的专家 |
| 命令数量 | 约 14 个技能(自动触发) | 28 个斜杠命令(手动调用) |
| 触发机制 | 自动——1% 规则触发技能 | 手动——用户调用需要的斜杠命令 |
| TDD 执行 | 强制。先有测试后有代码,否则代码被删除 | 可选。通过 /qa 可用但不强制 |
| 规划阶段 | 强制头脑风暴 + 计划(10-20 分钟前置开销) | 可选 /office-hours + /plan-ceo-review |
| 视觉 QA | v5.0 新增 HTML 原型(本地 Node.js 服务器) | 完整的无头 Chromium 浏览器(真实网站测试) |
| 安全扫描 | 非重点 | /cso 运行 OWASP Top 10 + STRIDE |
| 部署 | 手动——结束于 merge/PR 决策 | /ship 处理完整发布管线 |
| 子 Agent 架构 | 一等公民——每个任务独立 Agent + 两阶段审查 | 非核心功能 |
| 跨平台支持 | Claude Code, Cursor, Codex, Gemini CLI, OpenCode | Claude Code, Cursor, Codex, Gemini CLI |
| 浏览器集成 | 轻量(本地原型服务器) | 深度(三层持久化 Chromium 架构) |
| 并行能力 | 通过 Git Worktrees 支持(有限) | 通过 Conductor 等编排工具支持(10-15 个并行冲刺) |
| 学习曲线 | 中等——需要理解方法论 | 低——每个命令自包含 |
| 前置开销 | 高(10-20 分钟) | 低(按需调用) |
| GitHub Stars | ~12.1 万(2025 年 10 月至今) | ~5.46 万(2026 年 3 月 12 日至今) |
| 许可证 | MIT | MIT |
| 商业模式 | 个人开源项目 + 赞助 | YC 品牌背书的开源项目 |
| 适用场景 | 复杂项目,需要坚固测试覆盖 | 完整冲刺周期 + 视觉验证 |
| 核心局限 | 前置开销大,小项目过度工程 | TDD 非强制,依赖个人光环 |
补充维度:用户画像匹配
| 用户类型 | 推荐 | 原因 |
|---------|------|------|
| 个人独立开发者,快速迭代 | gstack | 即时生产力,无需理解复杂方法论 |
| 工程团队,代码质量至上 | Superpowers | 强制 TDD 和代码审查,复合学习 |
| 产品型创始人 | gstack | /office-hours 强制产品思维 |
| 库/SDK 开发者 | Superpowers | 回归防护是刚需 |
| 安全敏感项目 | gstack | /cso 提供安全扫描 |
| 学习 AI 辅助开发 | Superpowers | 最佳方法论教学工具 |
5. 底层分歧:两条路线的本质区别
Superpowers 和 gstack 的差异远不止于功能列表。它们代表了两种根本不同的对「AI 编程应该是什么样的」的理解。
5.1 信任模型
Superpowers 的信任模型是「不信任 Agent,信任流程」。它的核心假设是:AI Agent 天生会偷懒、跳步、自欺欺人。因此,你需要一个强制性的方法论框架来约束它。即使 Agent 足够聪明,你也不能给它自由裁量权——因为它会在压力下合理化跳过关键步骤。这就是为什么 Superpowers 有「红旗信号」机制来反驳 Agent 的跳过借口。
gstack 的信任模型是「不信任单角色,信任分工」。它的核心假设是:单个 AI Agent 扮演所有角色会导致质量退化(自说自话),但如果把不同阶段交给不同「角色」,每个角色有独立的视角和判断标准,就能打破这种退化。gstack 不强制你走完整流程——它相信开发者的判断力,你可以在需要时调用需要的命令。
这两种信任模型的对立,本质上是一个经典的管理学分歧:自上而下的流程控制 vs 扁平化的角色分工。
5.2 效率定义
Superpowers 定义效率为「每次变更的质量」。它愿意在前期投入 10-20 分钟来确保变更的正确性,因为修复 bug 的成本远高于预防 bug 的成本。这反映的是软件工程中「左移(shift-left)」的理念。
gstack 定义效率为「从想法到部署的速度」。它提供了一条从 /office-hours 到 /ship 的完整流水线,最小化中间摩擦。并行冲刺能力进一步将效率定义为「单位时间内完成的最大变更数量」。
5.3 可扩展性哲学
Superpowers 是内向可扩展的:它的价值随着你对方法论的掌握而增长。你越理解 TDD、系统化调试、设计先行,Superpowers 对你的帮助越大。但它很难规模化到团队——它本质上是个人工具。
gstack 是外向可扩展的:它的价值随着你并行运行更多冲刺而增长。但它的方法论深度有限——28 个斜杠命令覆盖了很多场景,但没有一个场景像 Superpowers 那样被深度优化。
5.4 知识积累模式
Superpowers 的复合学习:每次开发周期都会为未来的 AI Agent 消费记录学习成果。Jesse Vincent 估计 80% 的开发时间花在规划和审查上,系统性地创建一个自我改进的系统。这与 Compound Engineering(Every Inc. 的工具)的理念形成互补——后者专注于知识积累层。
gstack 的流程记忆:gstack 通过 ETHOS.md 和结构化的命令链来传递知识。但它更关注「当前冲刺怎么跑」而非「上次冲刺学到了什么」。这不是缺陷——而是不同层次的问题。
5.5 一个更深的哲学分歧
如果我们把视角拉远,Superpowers 和 gstack 的分歧其实映射了一个更古老的争论:康德式义务论 vs 功利主义。
Superpowers 是义务论的:不管结果如何,你必须遵循正确的流程(TDD、设计先行、代码审查)。过程即目的。
gstack 是功利主义的:不管用什么方法,能快速从想法到部署就是好的。结果证明过程。
这不是说哪个更「正确」——事实上,许多团队发现两者的最佳使用方式是组合:Superpowers 负责实现纪律(TDD、调试、头脑风暴),gstack 负责规划和 QA(/office-hours、/qa、/ship)。
6. 行业影响:对 Cursor/Windsurf/GitHub Copilot 的冲击
6.1 方法论层的崛起意味着什么?
Superpowers 和 gstack 的成功揭示了一个重要趋势:AI 编程的竞争正在从模型层和编辑器层上移到方法论层。
Cursor 的核心价值是「将 AI 深度嵌入编辑器」——但这正在被 Claude Code 插件系统所侵蚀。Superpowers 可以作为 Cursor 插件运行,gstack 也可以。当方法论可以在不同编辑器之间迁移时,编辑器本身的差异化就减弱了。
Windsurf 的核心价值是「低价 + 功能追平」——但在方法论层,价格不再是关键。Superpowers 和 gstack 都是免费的。
GitHub Copilot 的核心价值是「与 GitHub 生态深度集成」——但 Superpowers 和 gstack 的技能文件可以放在任何 Git 仓库中,与 Copilot 无关。
6.2 SKILL.md 正在成为新标准
2026 年初,开发者社区中流行一个口号:「Stop Building Agents, Start Building Skills」(别造 Agent 了,写 Skill 吧)。SKILL.md 正在成为 AI 编程工具的「HTML 之于 Web」——一个跨平台、跨模型的内容标准。
这对现有工具链的影响是深远的:
-
Anthropic:SKILL.md 标准与 Claude Code 插件系统高度契合,Anthropic 是最大受益者。Superpowers 在 Claude Code 上的体验最好。
-
OpenAI:Codex CLI 支持 SKILL.md,但 OpenAI 的整体 AI 编程生态(Copilot)仍以编辑器集成为核心,尚未充分拥抱方法论层。
-
Google:Gemini CLI 支持 SKILL.md,但 Google 在 AI 编程领域的整体策略仍不明朗。
-
Anysphere(Cursor):Cursor 的插件市场支持 SKILL.md,但 Cursor 的核心差异化(编辑器深度集成)正在被方法论层的可移植性所削弱。
-
Microsoft:GitHub Copilot 的企业优势(与 Azure DevOps、GitHub Actions 集成)仍然强大,但在方法论层缺乏对应产品。Microsoft Amplifier 是一个尝试,但方向不同。
6.3 对创业生态的影响
Superpowers 和 gstack 的出现,降低了一个人的产出上限。当一个人可以用 AI 在两个月内完成原本需要四人六个月的项目时,创业的资本效率大幅提升。这对 Y Combinator 这样的加速器是利好——更小的团队可以验证更多的想法。
但这也意味着「纯执行能力」的贬值。如果一个 CTO 可以用 gstack 在一周内写出过去需要一个工程师团队一个月的代码,那么工程师的核心价值就从「写代码」转向「定义问题、设计架构、判断优先级」——这些恰好是 Superpowers 的方法论所强调的。
7. 独立判断:谁更有可能赢?各自的死穴是什么?
7.1 先说结论
短期内(6-12 个月):gstack 的增长势头更强,得益于 YC 品牌效应和更低的使用门槛。它的 stars 增长速度(11 天 3.9 万)远超 Superpowers(5 个月 12 万)。
中期(1-3 年):Superpowers 的方法论深度将使它在严肃工程项目中更具粘性。一旦团队适应了 TDD-First 的工作流,很难回到无纪律的 AI 编程。gstack 的浅层命令集容易模仿和替代。
长期(3 年以上):两者都不会「赢」——因为方法论层最终会被编辑器/平台层吸收。正如 Git 从独立工具变成了编辑器的内置功能,Superpowers 和 gstack 的最佳实践最终会被 Claude Code、Cursor、Copilot 等平台原生集成。
7.2 Superpowers 的死穴
-
创始人依赖:Jesse Vincent 是 Superpowers 的灵魂。他 30 年的工程方法论经验是 Superpowers 的护城河,但也是它的瓶颈。如果他减少投入(他已经 50 岁,同时运营 Keyboardio),项目可能陷入停滞。
-
过度工程反噬:当 AI 模型的能力持续提升时,严格的方法论约束的边际价值在递减。如果未来的模型不再「跳过步骤」,Superpowers 的强制机制就变成了纯粹的摩擦。
-
商业化困难:作为一个纯开源、无融资的个人项目,Superpowers 缺乏资源来构建企业级功能(团队协作、权限管理、审计日志)。这限制了它在企业市场的渗透。
-
方法论宗教化风险:Superpowers 的社区有将 TDD 和方法论变成「宗教」的趋势——认为不遵循 Superpowers 方法论的 AI 编程都是「错的」。这种排他性会限制它的适用范围。
7.3 gstack 的死穴
-
个人光环不可复制:gstack 的 60 天 60 万行数据是 Garry Tan 的个人战绩。当其他开发者尝试复现时,效率差异可能巨大。一旦「Garry Tan 效应」被祛魅,gstack 的增长可能急剧放缓。
-
方法论深度不足:28 个斜杠命令覆盖面广,但深度不够。
/review不能替代 Superpowers 的系统化代码审查,/qa不能替代强制 TDD。gstack 做了很多事,但没有一件事做到极致。 -
安全与治理缺失:gstack 没有硬性治理层来阻止危险操作。对于一个声称可以每天产出上万行代码的系统来说,缺乏治理机制是一个严肃的风险。
-
平台锁定风险:gstack 的核心技术特性(持久化浏览器、Bun 运行时)绑定在 Claude Code 生态上。如果 Anthropic 改变 Claude Code 的方向,gstack 可能面临适配困难。
-
可持续性疑问:gstack 是 Garry Tan 的副业项目。作为 YC CEO,他的主要职责是管理 YC,而非维护一个开源项目。如果他的兴趣转移(他承认自己有「赛博精神病」),gstack 可能迅速衰落。
7.4 一个更可能的未来:融合
最有洞察力的观察来自一篇中文技术博客(xugj520.cn):gstack、Superpowers 和 Compound Engineering(Every Inc.)不是竞争者,而是三层架构的不同层:
-
gstack:决策层——确定「做什么」和「是否值得做」
-
Superpowers:过程层——确保「怎么做得好」
-
Compound Engineering:知识层——积累「上次学到了什么」
这个三层架构的视角,比「Superpowers vs gstack」的二元对立更有价值。未来的 AI 编程工具栈,很可能是这三层(或类似分层)的组合。
8. 结语:AI 编程的未来形态
8.1 从「AI 写代码」到「AI 做工程」
Superpowers 和 gstack 的出现,标志着 AI 编程从「代码生成」时代进入了「工程方法论」时代。这个转变的深层含义是:AI 编程的瓶颈已经不在模型能力上了。
Claude Opus 4.6 拥有 100 万 token 的上下文窗口。GPT-5 的推理能力在持续提升。Gemini 的多模态能力越来越强。但所有这些模型,在面对一个真实项目时,仍然会犯同样的系统性错误——跳过设计、忽略测试、写完代码不审查、遇到 bug 不查根因就打补丁。
这不是模型的问题,这是工作流的问题。而 Superpowers 和 gstack 正是两套试图解决工作流问题的方案。
8.2 方法论即基础设施
在传统软件工程中,方法论(如 Scrum、TDD、Code Review)是「软基础设施」——靠人的纪律和团队文化来执行。AI 编程工具的兴起,使方法论第一次可以成为「硬基础设施」——以代码的形式嵌入到开发流程中,不可绕过。
这是一个范式转换。当方法论从「人执行的规范」变成「代码执行的约束」时,它的传播速度、执行一致性和可审计性都发生了质变。
8.3 对中国开发者的启示
对于中国开发者来说,Superpowers 和 gstack 的出现有几个值得关注的信号:
-
SKILL.md 可能成为新的标准技能:类似于 Dockerfile 对容器化、Terraform 对基础设施即代码的影响,SKILL.md 可能成为 AI 编程方法论的标准载体。掌握 SKILL.md 的编写和优化,将成为一种新的专业能力。
-
方法论比工具更重要:Superpowers 和 gstack 都可以在 Claude Code 上运行。选择哪个编辑器(Cursor vs VS Code + Copilot vs Windsurf)已经不如选择哪个方法论重要。
-
一个人的产出上限正在被重新定义:当一个人可以每天产出上万行经过测试的代码时,「需要多少人来做这个项目」的估算方式需要彻底更新。这对创业、外包、技术管理都有深远影响。
-
英语能力仍然是隐性门槛:Superpowers 和 gstack 的核心文档、社区讨论、案例研究几乎全部是英文的。中文社区对这些工具的理解和应用仍处于早期阶段。
8.4 最后的疑问
在写完这篇文章时,我无法回避一个更深层的问题:当 AI 可以写出经过严格测试的、经过设计审查的、经过安全扫描的代码时,人类程序员的价值到底在哪里?
Superpowers 的回答是:人类的价值在于定义问题和判断优先级——AI 负责执行,人类负责决策。
gstack 的回答是:人类的价值在于产品直觉和架构判断——AI 负责实现,人类负责方向。
这两个回答都成立,但也都不完整。因为当我们把「定义问题」和「产品直觉」也交给 AI(比如通过 /office-hours 让 AI 来质疑你的产品方向),人类到底还剩什么?
也许答案不在于「人类做什么」,而在于「人类为什么做」。动机、目的、意义——这些东西目前还不在 AI 的能力范围内。Superpowers 和 gstack 可以帮你更快地建造一栋楼,但它们无法告诉你为什么要建这栋楼。
在听雨轩的窗前,雨声依然。代码会过时,工具会迭代,方法论会进化。但那个在深夜里兴奋到睡不着、想要创造些什么的冲动——不管是 Garry Tan 的「赛博精神病」,还是 Jesse Vincent 三十年如一日的方法论执着——也许才是真正的 Superpower。
雨轩于听雨轩 · 2026年3月31日
参考来源:
-
Jesse Vincent, "Superpowers: How I'm using coding agents in October 2025", blog.fsck.com, 2025-10-09
-
Simon Willison, "Notes on Superpowers", simonwillison.net, 2025-10-10
-
GitHub: obra/superpowers, github.com/obra/superpowers
-
DeepWiki: obra/superpowers, deepwiki.com/obra/superpowers
-
Particula Tech, "Superpowers vs GStack: Which AI Coding Skill Pack Actually Works?", 2026-03-23
-
YouMind Blog, "gstack Fully Explained: How YC's President Writes 10,000 Lines of Code Daily", 2026-03-22
-
Yahoo Tech / TechCrunch, "Why Garry Tan's Claude Code setup has gotten so much love, and hate", 2026-03-17
-
DEV Community, "gstack vs Superpowers vs AEGIS — 3 Philosophies of AI Agent Systems", 2026
-
xugj520.cn, "AI-Assisted Development Stack: How gstack, Superpowers, and Compound Engineering Work Together"
-
Jesse Vincent, Wikipedia, en.wikipedia.org/wiki/Jesse_Vincent
-
SitePoint, "GStack Tutorial: Garry Tan's Claude Code Workflow"
-
Claude Plugin Marketplace, "Superpowers", claude.com/plugins/superpowers
-
Hacker News, "Superpowers: How I'm using coding agents in October 2025", 2025-10-16
-
Forbes, "AI Minted More Than 50 New Billionaires In 2025", 2025-12-25
-
Towards Deep Learning, "YC's CEO Open-Sourced gstack. It Changed My Mind About Claude Code"
-
AwesomeAgents.ai, "GStack Guide - Garry Tan's Claude Code Skill Pack"
-
Wharton Research, "Call Me a Jerk: Persuading AI", gail.wharton.upenn.edu
-
chardet 7.0, PyPI, pypi.org/project/chardet