Edit: Claude Sonnet 5要来了，编程能力翻倍

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

一条404错误，泄露了新模型

2月2日，有开发者在调用Google Vertex AI的接口时，发现了一个奇怪的模型ID：

claude-sonnet-5@20260203

访问结果是404 Not Found。

这个错误信息看起来没什么，但对熟悉云服务的人来说，意思很明确——模型已经部署在谷歌的基础设施里了，只是还没对外开放。

随后，AI圈知名博主Pankaj Kumar直接确认：Claude Sonnet 5的代号是Fennec，已经在Google基础设施中，发布时间很可能就是2026年2月3日。

也就是说，最快这两天就能用上。

性能怎么样？先看数据

按照泄露出来的内部测试数据，Claude Sonnet 5在多个基准测试中的表现，已经超过了Claude Opus 4.5。

但它的定位却是Sonnet，也就是中端系列。这意味着，Anthropic用中端模型的价格，做出了旗舰级的性能。

最值得关注的是编程能力。

在SWE-Bench这个测试上，Claude Sonnet 5的得分超过了80.9%。作为对比，此前市面上最高分是74.4%。

SWE-Bench是什么？简单说，就是让AI去解决真实的GitHub问题——修bug、重构代码、补测试、跑CI流程等等。

80.9%的得分意味着，它能独立完成大部分软件工程师日常会遇到的任务。不只是写代码，而是能交付可用的代码。

价格便宜一半，上下文长十倍

更让人意外的是价格。

Claude Sonnet 5的推理成本，只有Claude Opus 4.5的50%。

原因在于，它是直接在谷歌TPU上训练和优化的。别人还在为H100显卡抢破头的时候，Anthropic早就换了条路。

除了价格优势，Sonnet 5的上下文窗口长达100万tokens，运行速度也有提升，延迟更低。

100万tokens是什么概念？你可以把整个项目的代码库一次性塞进去。它不是简单地”看文件”，而是理解全局架构之后再动手。

对于大型项目、遗留系统、或者那些没人敢碰的老代码来说，这个功能简直是救命稻草。

早期测试：效果确实不错

现在已经有一些早期测试者拿到了访问权限。

有人让Sonnet 5用ASCII字符画一张世界地图，结果生成的版本是他见过最完整、最详细的。

还有人测试了UI渲染和复杂代码构建，Sonnet 5都表现得很流畅。

当然，这些都是单个任务的测试。真正让人关注的，是它的多智能体协作能力。

Dev Team模式：一个人变成一个团队

Claude Sonnet 5最大的变化，是推出了一种叫”Dev Team”的模式。

在这个模式下，你只需要给一句需求，Sonnet 5会自动生成多个子智能体，然后并行协作完成开发。

这些子智能体会同时工作、互相校验，最终输出的不是一段代码，而是一个完整可用、可测试、可迭代的功能模块。

听起来有点玄乎，但已经有人实测过了。

实测案例：让AI自己组建开发团队

有个开发者做了这样一个测试：

他给Claude一个需求——为一个命令行工具创建Web前端，功能是从X（推特）上下载视频。

然后，他让Claude读取一个plan.md文件，要求它拆分任务，用多智能体的方式执行。

一开始，系统里没有任何自定义的子智能体。

但任务开始后，Claude自动创建了：

Team Leader（团队负责人）

Front-end Builder（前端开发）

Backend Builder（后端开发）

Component Builder（组件开发）

QA Tester（测试工程师）

这些智能体全部并行工作，状态实时可见。你甚至可以点进任意一个智能体，查看它的system prompt，看看它”脑子里”在想什么。

更夸张的是，任务进行到一半，Claude发现人手不够，又自己生成了：

API Server Agent

前端构建Agent

CSS专项Agent

API集成Agent

智能体数量直接从5个膨胀到8个，而且全程无人干预。

任务结束后，Claude还输出了项目总结和执行报告两份文件。这已经是工程管理级别的产出了。

蜂群模式：藏在代码里的秘密功能

其实在几天前，就有人在Claude Code的代码里发现了一个隐藏功能——Swarm（蜂群模式）。

爆料的人叫Mike Kelly，他在X上放出了一个Fork项目，叫”Claude Sneak Peek”，供大家试用。

所谓Swarm，就是一个”总指挥”AI，加上一群随叫随到、即用即走的专业子智能体，构成一套协作系统。

这套系统有几种运作模式：

层级式（Hierarchical）：总指挥 → 组长 → 执行者

依赖式（Dependency）：任务A完成，才能启动任务B

广播式（Broadcast）：一个信息，所有子agent同步接收

消息系统（Messaging System）：agent之间可以互相通信

这样一来，所有AI就像一个公司一样运作了。

为什么这个功能还没开放？

既然功能这么强，为什么Anthropic还没正式开放？

原因很简单：太危险了。

这个超级调度器能读取你的全部上下文，能自己决定创建多少个子智能体，能自己分配任务。如果没有足够的安全机制，很容易被滥用。

所以现在只有少数测试者能用，普通用户还得等。

但可以预见的是，一旦Swarm真正开放，Claude Code将不再只是一个写代码的AI，而是一个能自己组建研发团队的系统。

时间点很微妙：正面对抗OpenAI

Anthropic选择这个时间点发布Sonnet 5，时机很微妙。

就在这几天，OpenAI的CEO奥特曼已经预告，接下来是Codex全家桶的发布月。

Anthropic选在这个节骨眼上发布新模型，意图很明显——正面竞争。

而它之所以有这个底气,背后是钱。

在2026年1月底，Anthropic完成了超过100亿美元的融资，估值达到3500亿美元，最终融资规模可能达到200亿。

根据Menlo Ventures在2025年第四季度的报告，Anthropic在企业市场的占有率已经达到40%，远超OpenAI的27%和谷歌的21%。

而且仅仅半年时间，Claude Code的年化收入就突破了10亿美元。

💡 最近处理AI相关的事情都在ChatTools (https://chattools.top) 上搞定，Claude4.5、GPT5.2都能用，关键是免费还不用折腾网络。

📰 平时会逛逛 AI Inking (https://aiinking.com) 看看AI圈有什么新动向，信息更新挺及时的。

配图 (可多选)

选择新图片文件或拖拽到此处

标签