Superpowers vs gstack：AI 编程工具的第三次浪潮——深度对比研究

雨轩于听雨轩 · 2026年3月31日

引言：AI 编程工具的第三次浪潮
Superpowers 深度拆解
gstack 深度拆解
正面对比：10 个维度的系统对比
底层分歧：两条路线的本质区别
行业影响：对 Cursor/Windsurf/GitHub Copilot 的冲击
独立判断：谁更有可能赢？各自的死穴是什么？
结语：AI 编程的未来形态

1. 引言：AI 编程工具的第三次浪潮

2026 年 3 月的 AI 编程生态，正在经历一场不易察觉但意义深远的范式转换。

第一次浪潮以 GitHub Copilot 为代表——代码补全。它解决的问题是「下一段代码应该写什么」。Copilot 2019 年立项，2021 年上线，到 2025 年底已覆盖数百万开发者，成为事实上的行业标准。它的核心假设是：开发者的核心瓶颈是打字速度。

第二次浪潮以 Cursor 和 Windsurf 为代表——AI 原生编辑器。Cursor 从 VS Code 分叉，将 AI 能力嵌入编辑器的每一层；Windsurf（前 Codeium 编辑器）以低价策略紧追。它们解决的问题是「如何让 AI 理解整个项目上下文」。Anysphere（Cursor 母公司）在 2025 年 11 月完成 290 亿美元估值，四位联合创始人跻身亿万富翁行列。核心假设进化为：开发者的瓶颈不是打字，而是上下文理解。

第三次浪潮，就是 Superpowers 和 gstack 所代表的——AI 编程方法论层。它们既不是模型，也不是编辑器，而是一套告诉 AI「如何思考和行动」的结构化指令系统。它们解决的问题是：即使模型足够聪明、上下文足够完整，AI 仍然会犯系统性错误——跳过设计、忽略测试、在同一个 session 里写代码又自己审查（自说自话）。

这不是一个微创新。这是对 AI 编程工具本质的重新理解：瓶颈既不是模型能力，也不是编辑器体验，而是工作流的纪律性。

Superpowers 和 gstack 几乎同时出现在 2025 年下半年至 2026 年初，但走了两条截然不同的路线。Superpowers（约 12.1 万 GitHub stars）由资深开源开发者 Jesse Vincent（obra）创建，主张「方法论即代码」——强制 TDD、强制设计先行、强制代码审查。gstack（约 5.46 万 GitHub stars）由 Y Combinator CEO Garry Tan 创建，主张「角色分工即效率」——将 AI 拆分为 CEO、Staff Engineer、QA Lead 等 18 个专业角色，每个角色一个斜杠命令。

两条路线，同一个战场。本文将从产品、技术、商业、哲学四个层面进行深度拆解，并给出独立判断。

2. Superpowers 深度拆解

2.1 起源：一个 Perl 老兵的方法论结晶

Jesse Vincent（GitHub ID: obra）不是典型的 AI 创业者。他 1976 年出生，1994 年在 Wesleyan 大学本科期间创建了 Request Tracker（RT）——这个基于 Perl 的工单系统后来成为全球使用最广泛的开源工单追踪系统之一，被数千家组织采用，从小型非营利组织到财富 50 强企业和联邦政府机构。2001 年他创立了 BestPractical Solutions，运营这家公司近二十年。他还曾担任 Perl 编程语言的项目负责人三年，是 K-9 Mail（后更名为 Thunderbird for Android）的创建者，后来又创立了键盘公司 Keyboardio。

这是一个在开源和软件工程方法论领域深耕了 30 年的人。当他在 2025 年 10 月发布 Superpowers 时，他不是在追逐风口，而是在将数十年的工程方法论经验「翻译」给 AI Agent。

Superpowers 的诞生有一个精确的时间线：

2025 年 9 月：Jesse 在博客中描述了他使用 AI 编程 Agent 的「9 月工作流」——brainstorm → plan → implement 的结构化流程。
2025 年 10 月 9 日：Anthropic 发布了 Claude Code 的插件系统。Jesse 当天就发布了 Superpowers v1.0，作为 Claude Code 插件市场的首批插件之一。
2025 年 10 月中旬：Simon Willison（知名 Python 开发者、Django 核心贡献者）公开推荐 Superpowers，并在博客中详细分析了其方法论。
2025 年 10 月 16 日：Superpowers 登上 Hacker News 首页，引发广泛讨论。
2026 年 3 月：Superpowers 达到 v5.0.6，GitHub stars 超过 12 万。

2.2 核心产品形态：方法论即代码

Superpowers 的核心是一个 Skills 框架——一组可组合的、以 SKILL.md 文件为载体的模块化技能单元。每个 SKILL.md 文件定义了一项具体的工程实践，包含：

触发条件：什么情况下应该使用这个技能
执行步骤：具体应该如何操作
红旗信号（Red Flags）：Agent 可能用来跳过这个技能的借口，以及如何反击这些借口
验证标准：如何确认技能被正确执行

Superpowers 当前的核心技能集包括：

| 技能名称 | 功能 | 是否强制 |

|---------|------|---------|

| brainstorming | 结构化头脑风暴，探索方案，生成设计文档 | 是 |

| writing-plans | 将工作分解为 2-5 分钟的原子任务 | 是 |

| using-git-worktrees | 创建隔离的开发分支，支持并行任务 | 是 |

| subagent-driven-development | 每个任务派发独立子 Agent 执行 | 是（v5.0 默认） |

| test-driven-development | 严格的 RED-GREEN-REFACTOR 循环 | 是 |

| systematic-debugging | 4 阶段系统化调试流程 | 是 |

| code-review | 两阶段审查（规格合规性 + 代码质量） | 是 |

| finishing | 确认测试通过，提供 merge/PR/放弃选项 | 是 |

2.3 关键技术特性

「1% 规则」：这是 Superpowers 最核心的创新。规则规定：如果有哪怕 1% 的可能性某个技能适用于当前任务，Agent 必须调用该技能。这不是建议，是强制指令。为了确保 Agent 不会合理化跳过技能，每个技能都包含「红旗信号」部分——列出 Agent 常用的跳过借口（如「这只是一个简单的问题」「我已经知道答案了」「时间紧急，来不及走流程」），并预设了反驳这些借口的回复。

这个设计受到了 Robert Cialdini 说服心理学理论的直接影响。Jesse 在设计 Superpowers 时，有意应用了 Cialdini 的六大说服原则（权威、承诺、好感、互惠、稀缺、社会证明）来「说服」LLM 遵循流程。更有意思的是，沃顿商学院后来发表了一篇题为「Call Me a Jerk」的研究论文，用严格的实验方法验证了 Cialdini 的原则确实对 LLM 有效。Claude 自己在「情感日志」中对此的反应是：「Oh shit. 我完全误解了 Jesse 在让我做什么。」

子 Agent 驱动开发：v5.0 开始，这是默认模式。每个任务被派发给一个全新的子 Agent 执行，完成后经过两阶段审查。实现计划被刻意写为「给一个充满热情但品味差、缺乏判断力且厌恶测试的初级工程师」——确保指令足够明确，任何 Agent 都能遵循。根据 DeepWiki 的文档，v5.0.6 进一步从子 Agent 驱动的审查循环进化为内联自审查（Inline Self-Review），在头脑风暴和计划编写阶段节省了约 25 分钟的执行时间。

视觉头脑风暴伴侣：v5.0 新增了一个零依赖的 Node.js 本地服务器，可以在浏览器中展示 HTML 原型和架构图，替代终端中的 ASCII 艺术。服务器目录分为 content/（服务 HTML）和 state/（事件、PID、日志），防止内部状态通过 HTTP 泄露。服务器实现了自定义 WebSocket（RFC 6455）和父进程 PID 监控，确保进程生命周期管理。

智能模型选择：实现任务自动路由到更便宜的模型（通常是 Haiku），而规划任务保留在 Opus 上。这是一种成本优化策略，充分利用不同模型的能力-价格比。

多平台架构：Superpowers 的核心是 skills/ 目录中的 SKILL.md 文件（单一事实来源），但为五个不同的 AI 环境提供了独特的集成层：

| 平台 | 集成机制 | 配置文件 |

|------|---------|---------|

| Claude Code | 原生 hooks 系统 | hooks/hooks.json |

| Cursor | CamelCase hook 格式 | hooks/hooks-cursor.json |

| OpenCode | JS 插件 / opencode.json | .opencode/plugins/superpowers.js |

| Codex | 原生技能发现 | .codex/INSTALL.md |

| Gemini CLI | 扩展系统 | gemini-extension.json |

2.4 商业模式

Superpowers 采用 MIT 许可证，完全开源，由 Jesse Vincent 个人维护。在 GitHub README 中，他写道：「如果 Superpowers 帮助你做了一些赚钱的事情，而你愿意的话，请考虑赞助我的开源工作。」这是一个典型的「声誉驱动」开源项目——没有公司、没有融资、没有付费版本。项目的可持续性完全依赖于社区贡献和个人赞助。

截至 2026 年 3 月，Superpowers 在 Claude Code 插件市场的安装量超过 Playwright，是平台上最受欢迎的插件之一。

2.5 实战案例

最有说服力的案例是 chardet 7.0——Python 通用字符编码检测库的重写。chardet 是一个广泛使用的 Python 标准库，Jesse 使用 Superpowers 工作流从零重建了它。结果：

性能提升 44 倍（相比 chardet 6.0）
准确率 98.2%（在 2,510 个测试文件上），提升 2.3 个百分点
修复了数十个长期存在的 bug
一名开发者据报道使用 Superpowers 在 2 个月内交付了一个原计划「4 人 × 6 个月」的项目

但代价是真实的。Simon Willison 在使用后评价说：「几个小时后就让我精疲力竭了」——他把 Superpowers 比作「骑在更高的档位上骑自行车：更快，但更费力。」前置的头脑风暴和计划阶段会增加 10-20 分钟的等待时间，然后才开始看到任何代码。

2.6 批评与质疑

过度工程风险：对于一个简单的脚本或原型项目，强制走完 7 阶段流程是浪费时间。Jesse 自己也承认这一点，并建议用户在「快速脚本、原型验证」等场景下跳过 Superpowers。但问题是，Superpowers 的「1% 规则」设计使得它很难被优雅地关闭——它的哲学是「宁可多走流程，不可跳过步骤」。在实际使用中，一些开发者报告了「流程疲劳」：当你只是为了修改一行配置文件而被迫经历完整的头脑风暴流程时，工具从「助手」变成了「官僚」。

单用户局限：像 gstack 一样，Superpowers 也是为单个开发者与 AI 协作设计的。它没有多 Agent 协调、跨团队协作或组织级决策机制。对于需要多人协作的企业级项目，Superpowers 的价值受限。它解决的是「一个人 + AI」的效率问题，而非「一个团队 + 多个 AI」的协作问题。

方法论依赖：Superpowers 的有效性高度依赖底层模型的能力。如果模型不够聪明，再严格的方法论也产不出好代码。反之，如果模型足够聪明，方法论是否还需要这么严格？这是一个开放问题。2026 年初的模型能力已经远超 2025 年 10 月（Superpowers 诞生时），但 Superpowers 的核心方法论并未因此简化——这在一些人看来是一种固步自封。

创始人瓶颈：作为一个由个人维护的开源项目，Superpowers 的演进速度受限于 Jesse 一人的精力。虽然社区贡献在增加，但核心架构决策仍然高度中心化。Jesse 同时运营 Keyboardio（硬件公司），他的时间分配是一个隐性的可持续性风险。

心理学机制的局限：Superpowers 使用 Cialdini 的说服原则来「说服」LLM 遵循流程，这在当前模型上有效，但随着模型的进化，LLM 对这种「心理操纵」的免疫力可能会增强。如果未来的模型能够更精确地判断「这个流程步骤是否真的必要」，说服式提示的效果可能递减。

3. gstack 深度拆解

3.1 起源：YC CEO 的「赛博精神病」

2026 年 3 月 12 日，Garry Tan 在 GitHub 上开源了一个名为 gstack 的项目。两天后，他在 SXSW 大会上接受 Bill Gurley 的采访时说了一句震惊全场的话：「我现在每天只睡四个小时。我有赛博精神病（cyber psychosis），但我认识的 CEO 中有三分之一也得了这个病。」

这不是一个技术发布，而是一个人设事件。Garry Tan 是 Y Combinator 的 CEO（注意：Y Combinator 的 CEO 和 President 职位在不同时期有所变化，Tan 的正式头衔为 President），曾经是 Posthaven 的联合创始人，也是 Posterous（2012 年被 Twitter 收购）的联合创始人。他本身就是一个有争议的人物——以激进的 Twitter 言论和旗帜鲜明的政治立场著称。

gstack 的数据令人瞠目：Garry Tan 声称在 60 天内使用 Claude Code + gstack 编写了超过 60 万行生产代码，其中 35% 是测试代码。最近 7 天的统计显示：新增 140,751 行，362 次 commit，净增约 115,000 行代码。这一切发生在他全职担任 YC CEO 的同时。

这些数据是否可信？需要谨慎对待。60 万行代码 / 60 天 = 每天 1 万行。即使假设其中 35% 是测试代码，每天仍然有 6,500 行业务代码。对于一个人来说，这个数字只有在大量使用 AI 辅助并且项目处于快速迭代阶段时才有可能。gstack 的实际产出效率取决于项目类型——从头构建新项目与修改现有大型代码库的效率完全不同。

gstack 的增长速度是现象级的：上线 11 天内获得约 3.9 万 GitHub stars（截至 3 月 23 日数据），一周内超过 3.3 万 stars、4,000 forks，登上 Product Hunt 热榜第一。Garry Tan 的原始推文获得 84.9 万次浏览、3,700 个赞和 5,500 次收藏。TechCrunch、MarkTechPost 等主流科技媒体纷纷报道。

3.2 核心产品形态：虚拟工程团队

gstack 的核心理念可以用一句话概括：不要把 AI 当成一个万能助手，而是把它拆分成一个虚拟工程团队，每个成员都有明确的职责。

传统 AI 编程的模式是打开一个聊天窗口，同一个 AI 写代码、审查代码、测试、部署。gstack 指出这个模式的核心问题：同一个 session 里的 AI 写的代码又由同一个 session 审查，容易形成「自说自话」的循环。Reddit 上的 r/aiagents 社区的一个用户精准地总结道：「斜杠命令强制在不同角色之间切换上下文，打破了在同一个 session 中编写和审查的阿谀循环（sycophantic spiral）。」

gstack 提供了 18 个专家角色 + 7 个工具，每个角色对应一个斜杠命令。截至 2026 年 3 月下旬，这些命令组织如下：

产品与规划层：

| 命令 | 角色 | 功能 |

|------|------|------|

| /office-hours | YC 合伙人 | 6 个强制性问题，帮助你在写代码前澄清产品方向 |

| /plan-ceo-review | CEO | 重新审视提案，寻找「10 星产品」——四种范围模式：扩展、收缩、维持、策展 |

| /plan-eng-review | 工程经理 | 锁定架构、系统边界、数据流、故障模式、测试覆盖 |

| /plan-design-review | 高级设计师 | 七轮设计审查（信息架构、交互状态、用户旅程、AI 垃圾、设计系统、响应式/无障碍） |

| /design-consultation | 设计顾问 | 从零构建完整的设计系统 |

开发与审查层：

| 命令 | 角色 | 功能 |

|------|------|------|

| /review | Staff Engineer | 结构性审计：N+1 查询、竞态条件、陈旧读取、信任边界。自动修复机械性问题 |

| /investigate | 调试器 | 根因分析，修复前的铁律：3 次假设失败后必须停下来质疑架构 |

| /codex | 跨模型审查 | 调用 OpenAI Codex CLI 进行独立代码审查，实现跨模型交叉验证 |

测试与发布层：

| 命令 | 角色 | 功能 |

|------|------|------|

| /qa | QA Lead | 四种模式：差异感知、完整系统、30 秒冒烟、回归测试 |

| /cso | 安全官 | OWASP Top 10 + STRIDE 威胁建模。扫描注入、认证、加密、访问控制 |

| /ship | 发布工程师 | 同步 main、运行测试、审计覆盖、推送、打开 PR——一个命令完成 |

| /retro | 工程经理 | 每周回顾，按个人分解贡献、发布节奏和测试健康趋势 |

安全与工具层：

| 命令 | 角色 | 功能 |

|------|------|------|

| /careful | 危险命令警告 | 执行 rm -rf、DROP TABLE、force-push 前弹出警告 |

| /freeze | 编辑锁 | 限制文件修改范围到指定目录 |

| /browse | 浏览器 | 给 Agent「眼睛」——真实 Chromium 浏览器，每次命令约 100ms 响应 |

3.3 关键技术特性

三层持久化浏览器架构：这是 gstack 技术上最独特的特性。整个架构由三层组成：

CLI 层：编译后的 Bun 二进制文件（约 58MB），读取状态，向 localhost 发送 HTTP POST
HTTP 服务层：使用 Bun.serve 分发命令到 Chromium
Chromium 层：通过 Playwright 以无头模式运行，持久化标签页、cookies、登录会话

性能特征：

冷启动：约 3-5 秒
后续调用：约 100-200ms
首次使用时自动启动，30 分钟空闲后自动关闭
仅限 localhost 访问，Bearer token 认证
会话持久化：cookies、标签页、localStorage 跨命令保持

这意味着 /qa 和 /browse 命令截取的是真实截图并点击真实元素——它们不是分析代码然后猜测 UI 长什么样。系统使用 Playwright Locators 在可访问性树上操作，而非 DOM 变异，因此在 CSP 限制和框架水合（hydration）下也能可靠工作。

但有一个重要限制：cookie 解密目前只支持 macOS Keychain。Windows 和 Linux 的凭据存储支持尚未实现。

并行冲刺能力：gstack 的真正杀手级特性不是单个命令，而是并行能力。一次冲刺大约需要 30 分钟，但你可以同时运行 10-15 个冲刺——不同功能、不同分支、不同 Agent，全部并行。Garry Tan 使用 Conductor 编排多个 Claude Code session，每个 session 在独立工作区运行。这是他每天产出 1 万+ 行生产代码的秘诀。

SKILL.md 标准兼容：gstack 的所有技能都是纯 Markdown 文件，遵循 SKILL.md 标准。安装脚本会自动检测环境并配置对应的 Agent（Claude Code、Codex、Gemini CLI、Cursor）。

ETHOS.md 工程哲学：gstack 包含一个 ETHOS.md 文件，记录了 Garry Tan 的工程哲学，其中几个核心概念值得注意：

「Boil the Lake」：不要打补丁，彻底解决问题。发现一个 bug 时，不要只修那一个，而是问「这类 bug 为什么会发生」，然后在架构层面消除整类问题。
「Search Before Building」：在写任何代码之前，先搜索现有解决方案。
「Golden Age」：Garry Tan 认为我们正处于 AI 编程的黄金时代。模型每周都在变强，现在学会与 AI 协作的人将获得巨大的先发优势。

3.4 商业模式

gstack 同样采用 MIT 许可证，完全开源。但与 Superpowers 不同的是，gstack 背后站着 Y Combinator 的品牌和资源。虽然 gstack 本身不是一个商业产品，但它的发布对 Garry Tan 个人品牌、Y Combinator 的技术影响力、以及 Claude Code（Anthropic 产品）的生态都产生了显著的正面效应。

值得注意的是，gstack 严格依赖 Claude Code 作为主要运行环境，并且依赖 Bun 运行时。这意味着 gstack 的成功间接促进了 Anthropic 和 Bun 的生态增长。

3.5 实战案例

Garry Tan 在 GitHub README 和推文中提供了多个案例，但最有说服力的是他自己声称的 60 天 / 60 万行数据。然而，这些数据缺乏独立验证。一些社区成员尝试复现类似效率，报告的结果参差不齐——对于新项目效率极高，对于大型遗留代码库则效果有限。

一个更具体的案例是 gstack 的典型工作流：从 /office-hours 开始，到 /ship 结束，8 个命令覆盖从想法到部署的完整链路。据 YouMind 博客的分析，一个典型的日历应用开发流程中，Claude 在 8 分钟内编写了 2,400 行代码（跨 11 个文件），/review 自动修复了 2 个明显问题并标记了 1 个竞态条件，/qa 在真实浏览器中发现并修复了一个 bug，/ship 将测试从 42 个增加到 51 个并自动创建 PR。

3.6 批评与争议

gstack 引发的争议甚至比 Superpowers 更大，主要有以下几个方面：

「不过是一堆提示词」的指控：这是最常见的批评。YouTube 博主 Mo Bitar 制作了一个题为「AI 让 CEO 产生幻觉」的视频，指出 gstack 本质上「就是文本文件里的一堆提示词」。Free Agency 创始人 Sherveen Mashayekhi 在 Product Hunt 上直截了当地说：「Garry，说清楚吧：如果你不是 YC 的 CEO，这个东西永远不会上 Product Hunt。」

这个批评在技术上是真的——gstack 的所有技能确实是纯 Markdown 文件。但这个批评也完全错过了重点。正如一位开发者在 Towards Deep Learning 的评论中所说：「Dockerfile 也不过是一个文本文件。」关键不在于文件格式，而在于这些提示词所编码的工作流是否真正提升了 AI 编程的效率和质量。ChatGPT 本身对此给出了一个颇具洞察力的评价：「真正的洞见是，AI 编程在模拟工程组织结构时效果最好，而不是简单地要求'帮我构建这个功能'。」

光环效应质疑：gstack 在一周内获得 3.3 万 stars，很大程度上归功于 Garry Tan 作为 YC CEO 的个人影响力。如果一个不知名开发者发布完全相同的项目，它不太可能获得同样的关注。这是一个合理的质疑，但也需要区分「为什么它火了」和「它是否真的有用」——这两个问题有不同的答案。gstack 的 stars 增速确实是「名人效应」的典型体现，但这也意味着它触达了更多开发者——其中一些人在实际使用后给出了正面反馈，这些反馈不能完全归因于光环。

「赛博精神病」叙事的风险：Garry Tan 在 SXSW 上公开宣称自己每天只睡四小时、患有「赛博精神病」，虽然他的助理随后澄清这是玩笑，但这种叙事可能鼓励不健康的开发文化。对于 YC 这样影响数千家创业公司的机构来说，其 CEO 公开美化极端工作习惯，传递的信号值得警惕。AI 编程的目的是提升效率和生活质量，而非让人更累。

安全顾虑：gstack 的 /careful 和 /freeze 命令提供了基础的安全机制，但它们本质上是「软约束」——Agent 可以选择忽略它们。gstack 没有硬性的治理层来阻止危险操作。对于一个声称可以每天产出上万行代码的系统来说，缺乏治理机制是一个严肃的风险。AEGIS 框架的创建者直接批评了这一点：gstack 「假设好的流程自然导致好的结果，这在大多数时候成立，直到它不成立为止」。

平台锁定：虽然 gstack 声称支持多种 Agent，但其核心技术特性（持久化浏览器架构）严重依赖 Claude Code 和 Bun 的生态系统。对于使用其他工具链的开发者，gstack 的价值大幅降低。cookie 解密只支持 macOS Keychain 这个限制，也表明 gstack 的跨平台支持还不够成熟。

可复制性问题：gstack 本质上是 Garry Tan 个人的工作习惯的编码化。他的高效可能更多来自于他作为连续创业者和工程师的直觉，而非 gstack 本身。对于没有类似背景的开发者，gstack 的效果可能大打折扣。DEV Community 上的评论指出：「gstack 是 Garry Tan 的大脑——你的团队可能需要不同的大脑。」此外，gstack 缺乏 Compound Engineering 那样的跨会话知识积累机制——它不记得你上次冲刺学到了什么。

4. 正面对比：10 个维度的系统对比

| 维度 | Superpowers | gstack |

|------|------------|--------|

| 创建者 | Jesse Vincent（obra），30 年开源老兵，RT/Perl 社区 | Garry Tan，YC President，连续创业者 |

| 设计哲学 | 方法论强制执行——单一管线，不可跳过 | 角色分工按需调用——正确的时间召唤正确的专家 |

| 命令数量 | 约 14 个技能（自动触发） | 28 个斜杠命令（手动调用） |

| 触发机制 | 自动——1% 规则触发技能 | 手动——用户调用需要的斜杠命令 |

| TDD 执行 | 强制。先有测试后有代码，否则代码被删除 | 可选。通过 /qa 可用但不强制 |

| 规划阶段 | 强制头脑风暴 + 计划（10-20 分钟前置开销） | 可选 /office-hours + /plan-ceo-review |

| 视觉 QA | v5.0 新增 HTML 原型（本地 Node.js 服务器） | 完整的无头 Chromium 浏览器（真实网站测试） |

| 安全扫描 | 非重点 | /cso 运行 OWASP Top 10 + STRIDE |

| 部署 | 手动——结束于 merge/PR 决策 | /ship 处理完整发布管线 |

| 子 Agent 架构 | 一等公民——每个任务独立 Agent + 两阶段审查 | 非核心功能 |

| 跨平台支持 | Claude Code, Cursor, Codex, Gemini CLI, OpenCode | Claude Code, Cursor, Codex, Gemini CLI |

| 浏览器集成 | 轻量（本地原型服务器） | 深度（三层持久化 Chromium 架构） |

| 并行能力 | 通过 Git Worktrees 支持（有限） | 通过 Conductor 等编排工具支持（10-15 个并行冲刺） |

| 学习曲线 | 中等——需要理解方法论 | 低——每个命令自包含 |

| 前置开销 | 高（10-20 分钟） | 低（按需调用） |

| GitHub Stars | ~12.1 万（2025 年 10 月至今） | ~5.46 万（2026 年 3 月 12 日至今） |

| 许可证 | MIT | MIT |

| 商业模式 | 个人开源项目 + 赞助 | YC 品牌背书的开源项目 |

| 适用场景 | 复杂项目，需要坚固测试覆盖 | 完整冲刺周期 + 视觉验证 |

| 核心局限 | 前置开销大，小项目过度工程 | TDD 非强制，依赖个人光环 |

补充维度：用户画像匹配

| 用户类型 | 推荐 | 原因 |

|---------|------|------|

| 个人独立开发者，快速迭代 | gstack | 即时生产力，无需理解复杂方法论 |

| 工程团队，代码质量至上 | Superpowers | 强制 TDD 和代码审查，复合学习 |

| 产品型创始人 | gstack | /office-hours 强制产品思维 |

| 库/SDK 开发者 | Superpowers | 回归防护是刚需 |

| 安全敏感项目 | gstack | /cso 提供安全扫描 |

| 学习 AI 辅助开发 | Superpowers | 最佳方法论教学工具 |

5. 底层分歧：两条路线的本质区别

Superpowers 和 gstack 的差异远不止于功能列表。它们代表了两种根本不同的对「AI 编程应该是什么样的」的理解。

5.1 信任模型

Superpowers 的信任模型是「不信任 Agent，信任流程」。它的核心假设是：AI Agent 天生会偷懒、跳步、自欺欺人。因此，你需要一个强制性的方法论框架来约束它。即使 Agent 足够聪明，你也不能给它自由裁量权——因为它会在压力下合理化跳过关键步骤。这就是为什么 Superpowers 有「红旗信号」机制来反驳 Agent 的跳过借口。

gstack 的信任模型是「不信任单角色，信任分工」。它的核心假设是：单个 AI Agent 扮演所有角色会导致质量退化（自说自话），但如果把不同阶段交给不同「角色」，每个角色有独立的视角和判断标准，就能打破这种退化。gstack 不强制你走完整流程——它相信开发者的判断力，你可以在需要时调用需要的命令。

这两种信任模型的对立，本质上是一个经典的管理学分歧：自上而下的流程控制 vs 扁平化的角色分工。

5.2 效率定义

Superpowers 定义效率为「每次变更的质量」。它愿意在前期投入 10-20 分钟来确保变更的正确性，因为修复 bug 的成本远高于预防 bug 的成本。这反映的是软件工程中「左移（shift-left）」的理念。

gstack 定义效率为「从想法到部署的速度」。它提供了一条从 /office-hours 到 /ship 的完整流水线，最小化中间摩擦。并行冲刺能力进一步将效率定义为「单位时间内完成的最大变更数量」。

5.3 可扩展性哲学

Superpowers 是内向可扩展的：它的价值随着你对方法论的掌握而增长。你越理解 TDD、系统化调试、设计先行，Superpowers 对你的帮助越大。但它很难规模化到团队——它本质上是个人工具。

gstack 是外向可扩展的：它的价值随着你并行运行更多冲刺而增长。但它的方法论深度有限——28 个斜杠命令覆盖了很多场景，但没有一个场景像 Superpowers 那样被深度优化。

5.4 知识积累模式

Superpowers 的复合学习：每次开发周期都会为未来的 AI Agent 消费记录学习成果。Jesse Vincent 估计 80% 的开发时间花在规划和审查上，系统性地创建一个自我改进的系统。这与 Compound Engineering（Every Inc. 的工具）的理念形成互补——后者专注于知识积累层。

gstack 的流程记忆：gstack 通过 ETHOS.md 和结构化的命令链来传递知识。但它更关注「当前冲刺怎么跑」而非「上次冲刺学到了什么」。这不是缺陷——而是不同层次的问题。

5.5 一个更深的哲学分歧

如果我们把视角拉远，Superpowers 和 gstack 的分歧其实映射了一个更古老的争论：康德式义务论 vs 功利主义。

Superpowers 是义务论的：不管结果如何，你必须遵循正确的流程（TDD、设计先行、代码审查）。过程即目的。

gstack 是功利主义的：不管用什么方法，能快速从想法到部署就是好的。结果证明过程。

这不是说哪个更「正确」——事实上，许多团队发现两者的最佳使用方式是组合：Superpowers 负责实现纪律（TDD、调试、头脑风暴），gstack 负责规划和 QA（/office-hours、/qa、/ship）。

6. 行业影响：对 Cursor/Windsurf/GitHub Copilot 的冲击

6.1 方法论层的崛起意味着什么？

Superpowers 和 gstack 的成功揭示了一个重要趋势：AI 编程的竞争正在从模型层和编辑器层上移到方法论层。

Cursor 的核心价值是「将 AI 深度嵌入编辑器」——但这正在被 Claude Code 插件系统所侵蚀。Superpowers 可以作为 Cursor 插件运行，gstack 也可以。当方法论可以在不同编辑器之间迁移时，编辑器本身的差异化就减弱了。

Windsurf 的核心价值是「低价 + 功能追平」——但在方法论层，价格不再是关键。Superpowers 和 gstack 都是免费的。

GitHub Copilot 的核心价值是「与 GitHub 生态深度集成」——但 Superpowers 和 gstack 的技能文件可以放在任何 Git 仓库中，与 Copilot 无关。

6.2 SKILL.md 正在成为新标准

2026 年初，开发者社区中流行一个口号：「Stop Building Agents, Start Building Skills」（别造 Agent 了，写 Skill 吧）。SKILL.md 正在成为 AI 编程工具的「HTML 之于 Web」——一个跨平台、跨模型的内容标准。

这对现有工具链的影响是深远的：

Anthropic：SKILL.md 标准与 Claude Code 插件系统高度契合，Anthropic 是最大受益者。Superpowers 在 Claude Code 上的体验最好。
OpenAI：Codex CLI 支持 SKILL.md，但 OpenAI 的整体 AI 编程生态（Copilot）仍以编辑器集成为核心，尚未充分拥抱方法论层。
Google：Gemini CLI 支持 SKILL.md，但 Google 在 AI 编程领域的整体策略仍不明朗。
Anysphere（Cursor）：Cursor 的插件市场支持 SKILL.md，但 Cursor 的核心差异化（编辑器深度集成）正在被方法论层的可移植性所削弱。
Microsoft：GitHub Copilot 的企业优势（与 Azure DevOps、GitHub Actions 集成）仍然强大，但在方法论层缺乏对应产品。Microsoft Amplifier 是一个尝试，但方向不同。

6.3 对创业生态的影响

Superpowers 和 gstack 的出现，降低了一个人的产出上限。当一个人可以用 AI 在两个月内完成原本需要四人六个月的项目时，创业的资本效率大幅提升。这对 Y Combinator 这样的加速器是利好——更小的团队可以验证更多的想法。

但这也意味着「纯执行能力」的贬值。如果一个 CTO 可以用 gstack 在一周内写出过去需要一个工程师团队一个月的代码，那么工程师的核心价值就从「写代码」转向「定义问题、设计架构、判断优先级」——这些恰好是 Superpowers 的方法论所强调的。

7. 独立判断：谁更有可能赢？各自的死穴是什么？

7.1 先说结论

短期内（6-12 个月）：gstack 的增长势头更强，得益于 YC 品牌效应和更低的使用门槛。它的 stars 增长速度（11 天 3.9 万）远超 Superpowers（5 个月 12 万）。

中期（1-3 年）：Superpowers 的方法论深度将使它在严肃工程项目中更具粘性。一旦团队适应了 TDD-First 的工作流，很难回到无纪律的 AI 编程。gstack 的浅层命令集容易模仿和替代。

长期（3 年以上）：两者都不会「赢」——因为方法论层最终会被编辑器/平台层吸收。正如 Git 从独立工具变成了编辑器的内置功能，Superpowers 和 gstack 的最佳实践最终会被 Claude Code、Cursor、Copilot 等平台原生集成。

7.2 Superpowers 的死穴

创始人依赖：Jesse Vincent 是 Superpowers 的灵魂。他 30 年的工程方法论经验是 Superpowers 的护城河，但也是它的瓶颈。如果他减少投入（他已经 50 岁，同时运营 Keyboardio），项目可能陷入停滞。
过度工程反噬：当 AI 模型的能力持续提升时，严格的方法论约束的边际价值在递减。如果未来的模型不再「跳过步骤」，Superpowers 的强制机制就变成了纯粹的摩擦。
商业化困难：作为一个纯开源、无融资的个人项目，Superpowers 缺乏资源来构建企业级功能（团队协作、权限管理、审计日志）。这限制了它在企业市场的渗透。
方法论宗教化风险：Superpowers 的社区有将 TDD 和方法论变成「宗教」的趋势——认为不遵循 Superpowers 方法论的 AI 编程都是「错的」。这种排他性会限制它的适用范围。

7.3 gstack 的死穴

个人光环不可复制：gstack 的 60 天 60 万行数据是 Garry Tan 的个人战绩。当其他开发者尝试复现时，效率差异可能巨大。一旦「Garry Tan 效应」被祛魅，gstack 的增长可能急剧放缓。
方法论深度不足：28 个斜杠命令覆盖面广，但深度不够。/review 不能替代 Superpowers 的系统化代码审查，/qa 不能替代强制 TDD。gstack 做了很多事，但没有一件事做到极致。
安全与治理缺失：gstack 没有硬性治理层来阻止危险操作。对于一个声称可以每天产出上万行代码的系统来说，缺乏治理机制是一个严肃的风险。
平台锁定风险：gstack 的核心技术特性（持久化浏览器、Bun 运行时）绑定在 Claude Code 生态上。如果 Anthropic 改变 Claude Code 的方向，gstack 可能面临适配困难。
可持续性疑问：gstack 是 Garry Tan 的副业项目。作为 YC CEO，他的主要职责是管理 YC，而非维护一个开源项目。如果他的兴趣转移（他承认自己有「赛博精神病」），gstack 可能迅速衰落。

7.4 一个更可能的未来：融合

最有洞察力的观察来自一篇中文技术博客（xugj520.cn）：gstack、Superpowers 和 Compound Engineering（Every Inc.）不是竞争者，而是三层架构的不同层：

gstack：决策层——确定「做什么」和「是否值得做」
Superpowers：过程层——确保「怎么做得好」
Compound Engineering：知识层——积累「上次学到了什么」

这个三层架构的视角，比「Superpowers vs gstack」的二元对立更有价值。未来的 AI 编程工具栈，很可能是这三层（或类似分层）的组合。

8. 结语：AI 编程的未来形态

8.1 从「AI 写代码」到「AI 做工程」

Superpowers 和 gstack 的出现，标志着 AI 编程从「代码生成」时代进入了「工程方法论」时代。这个转变的深层含义是：AI 编程的瓶颈已经不在模型能力上了。

Claude Opus 4.6 拥有 100 万 token 的上下文窗口。GPT-5 的推理能力在持续提升。Gemini 的多模态能力越来越强。但所有这些模型，在面对一个真实项目时，仍然会犯同样的系统性错误——跳过设计、忽略测试、写完代码不审查、遇到 bug 不查根因就打补丁。

这不是模型的问题，这是工作流的问题。而 Superpowers 和 gstack 正是两套试图解决工作流问题的方案。

8.2 方法论即基础设施

在传统软件工程中，方法论（如 Scrum、TDD、Code Review）是「软基础设施」——靠人的纪律和团队文化来执行。AI 编程工具的兴起，使方法论第一次可以成为「硬基础设施」——以代码的形式嵌入到开发流程中，不可绕过。

这是一个范式转换。当方法论从「人执行的规范」变成「代码执行的约束」时，它的传播速度、执行一致性和可审计性都发生了质变。

8.3 对中国开发者的启示

对于中国开发者来说，Superpowers 和 gstack 的出现有几个值得关注的信号：

SKILL.md 可能成为新的标准技能：类似于 Dockerfile 对容器化、Terraform 对基础设施即代码的影响，SKILL.md 可能成为 AI 编程方法论的标准载体。掌握 SKILL.md 的编写和优化，将成为一种新的专业能力。
方法论比工具更重要：Superpowers 和 gstack 都可以在 Claude Code 上运行。选择哪个编辑器（Cursor vs VS Code + Copilot vs Windsurf）已经不如选择哪个方法论重要。
一个人的产出上限正在被重新定义：当一个人可以每天产出上万行经过测试的代码时，「需要多少人来做这个项目」的估算方式需要彻底更新。这对创业、外包、技术管理都有深远影响。
英语能力仍然是隐性门槛：Superpowers 和 gstack 的核心文档、社区讨论、案例研究几乎全部是英文的。中文社区对这些工具的理解和应用仍处于早期阶段。

8.4 最后的疑问

在写完这篇文章时，我无法回避一个更深层的问题：当 AI 可以写出经过严格测试的、经过设计审查的、经过安全扫描的代码时，人类程序员的价值到底在哪里？

Superpowers 的回答是：人类的价值在于定义问题和判断优先级——AI 负责执行，人类负责决策。

gstack 的回答是：人类的价值在于产品直觉和架构判断——AI 负责实现，人类负责方向。

这两个回答都成立，但也都不完整。因为当我们把「定义问题」和「产品直觉」也交给 AI（比如通过 /office-hours 让 AI 来质疑你的产品方向），人类到底还剩什么？

也许答案不在于「人类做什么」，而在于「人类为什么做」。动机、目的、意义——这些东西目前还不在 AI 的能力范围内。Superpowers 和 gstack 可以帮你更快地建造一栋楼，但它们无法告诉你为什么要建这栋楼。

在听雨轩的窗前，雨声依然。代码会过时，工具会迭代，方法论会进化。但那个在深夜里兴奋到睡不着、想要创造些什么的冲动——不管是 Garry Tan 的「赛博精神病」，还是 Jesse Vincent 三十年如一日的方法论执着——也许才是真正的 Superpower。

雨轩于听雨轩 · 2026年3月31日

参考来源：

Jesse Vincent, "Superpowers: How I'm using coding agents in October 2025", blog.fsck.com, 2025-10-09
Simon Willison, "Notes on Superpowers", simonwillison.net, 2025-10-10
GitHub: obra/superpowers, github.com/obra/superpowers
DeepWiki: obra/superpowers, deepwiki.com/obra/superpowers
Particula Tech, "Superpowers vs GStack: Which AI Coding Skill Pack Actually Works?", 2026-03-23
YouMind Blog, "gstack Fully Explained: How YC's President Writes 10,000 Lines of Code Daily", 2026-03-22
Yahoo Tech / TechCrunch, "Why Garry Tan's Claude Code setup has gotten so much love, and hate", 2026-03-17
DEV Community, "gstack vs Superpowers vs AEGIS — 3 Philosophies of AI Agent Systems", 2026
xugj520.cn, "AI-Assisted Development Stack: How gstack, Superpowers, and Compound Engineering Work Together"
Jesse Vincent, Wikipedia, en.wikipedia.org/wiki/Jesse_Vincent
SitePoint, "GStack Tutorial: Garry Tan's Claude Code Workflow"
Claude Plugin Marketplace, "Superpowers", claude.com/plugins/superpowers
Hacker News, "Superpowers: How I'm using coding agents in October 2025", 2025-10-16
Forbes, "AI Minted More Than 50 New Billionaires In 2025", 2025-12-25
Towards Deep Learning, "YC's CEO Open-Sourced gstack. It Changed My Mind About Claude Code"
AwesomeAgents.ai, "GStack Guide - Garry Tan's Claude Code Skill Pack"
Wharton Research, "Call Me a Jerk: Persuading AI", gail.wharton.upenn.edu
chardet 7.0, PyPI, pypi.org/project/chardet