兰 亭 墨 苑
期货 · 量化 · AI · 终身学习
首页
归档
编辑文章
标题 *
URL 别名 *
内容 *
(支持 Markdown 格式)
一条404错误,泄露了新模型 2月2日,有开发者在调用Google Vertex AI的接口时,发现了一个奇怪的模型ID: claude-sonnet-5@20260203 访问结果是404 Not Found。 这个错误信息看起来没什么,但对熟悉云服务的人来说,意思很明确——模型已经部署在谷歌的基础设施里了,只是还没对外开放。 随后,AI圈知名博主Pankaj Kumar直接确认:Claude Sonnet 5的代号是Fennec,已经在Google基础设施中,发布时间很可能就是2026年2月3日。 也就是说,最快这两天就能用上。 性能怎么样?先看数据 按照泄露出来的内部测试数据,Claude Sonnet 5在多个基准测试中的表现,已经超过了Claude Opus 4.5。 但它的定位却是Sonnet,也就是中端系列。这意味着,Anthropic用中端模型的价格,做出了旗舰级的性能。 最值得关注的是编程能力。 在SWE-Bench这个测试上,Claude Sonnet 5的得分超过了80.9%。作为对比,此前市面上最高分是74.4%。 SWE-Bench是什么?简单说,就是让AI去解决真实的GitHub问题——修bug、重构代码、补测试、跑CI流程等等。 80.9%的得分意味着,它能独立完成大部分软件工程师日常会遇到的任务。不只是写代码,而是能交付可用的代码。 价格便宜一半,上下文长十倍 更让人意外的是价格。 Claude Sonnet 5的推理成本,只有Claude Opus 4.5的50%。 原因在于,它是直接在谷歌TPU上训练和优化的。别人还在为H100显卡抢破头的时候,Anthropic早就换了条路。 除了价格优势,Sonnet 5的上下文窗口长达100万tokens,运行速度也有提升,延迟更低。 100万tokens是什么概念?你可以把整个项目的代码库一次性塞进去。它不是简单地”看文件”,而是理解全局架构之后再动手。 对于大型项目、遗留系统、或者那些没人敢碰的老代码来说,这个功能简直是救命稻草。 早期测试:效果确实不错 现在已经有一些早期测试者拿到了访问权限。 有人让Sonnet 5用ASCII字符画一张世界地图,结果生成的版本是他见过最完整、最详细的。 还有人测试了UI渲染和复杂代码构建,Sonnet 5都表现得很流畅。 当然,这些都是单个任务的测试。真正让人关注的,是它的多智能体协作能力。 Dev Team模式:一个人变成一个团队 Claude Sonnet 5最大的变化,是推出了一种叫”Dev Team”的模式。 在这个模式下,你只需要给一句需求,Sonnet 5会自动生成多个子智能体,然后并行协作完成开发。 这些子智能体会同时工作、互相校验,最终输出的不是一段代码,而是一个完整可用、可测试、可迭代的功能模块。 听起来有点玄乎,但已经有人实测过了。 实测案例:让AI自己组建开发团队 有个开发者做了这样一个测试: 他给Claude一个需求——为一个命令行工具创建Web前端,功能是从X(推特)上下载视频。 然后,他让Claude读取一个plan.md文件,要求它拆分任务,用多智能体的方式执行。 一开始,系统里没有任何自定义的子智能体。 但任务开始后,Claude自动创建了: Team Leader(团队负责人) Front-end Builder(前端开发) Backend Builder(后端开发) Component Builder(组件开发) QA Tester(测试工程师) 这些智能体全部并行工作,状态实时可见。你甚至可以点进任意一个智能体,查看它的system prompt,看看它”脑子里”在想什么。 更夸张的是,任务进行到一半,Claude发现人手不够,又自己生成了: API Server Agent 前端构建Agent CSS专项Agent API集成Agent 智能体数量直接从5个膨胀到8个,而且全程无人干预。 任务结束后,Claude还输出了项目总结和执行报告两份文件。这已经是工程管理级别的产出了。 蜂群模式:藏在代码里的秘密功能 其实在几天前,就有人在Claude Code的代码里发现了一个隐藏功能——Swarm(蜂群模式)。 爆料的人叫Mike Kelly,他在X上放出了一个Fork项目,叫”Claude Sneak Peek”,供大家试用。 所谓Swarm,就是一个”总指挥”AI,加上一群随叫随到、即用即走的专业子智能体,构成一套协作系统。 这套系统有几种运作模式: 层级式(Hierarchical):总指挥 → 组长 → 执行者 依赖式(Dependency):任务A完成,才能启动任务B 广播式(Broadcast):一个信息,所有子agent同步接收 消息系统(Messaging System):agent之间可以互相通信 这样一来,所有AI就像一个公司一样运作了。 为什么这个功能还没开放? 既然功能这么强,为什么Anthropic还没正式开放? 原因很简单:太危险了。 这个超级调度器能读取你的全部上下文,能自己决定创建多少个子智能体,能自己分配任务。如果没有足够的安全机制,很容易被滥用。 所以现在只有少数测试者能用,普通用户还得等。 但可以预见的是,一旦Swarm真正开放,Claude Code将不再只是一个写代码的AI,而是一个能自己组建研发团队的系统。 时间点很微妙:正面对抗OpenAI Anthropic选择这个时间点发布Sonnet 5,时机很微妙。 就在这几天,OpenAI的CEO奥特曼已经预告,接下来是Codex全家桶的发布月。 Anthropic选在这个节骨眼上发布新模型,意图很明显——正面竞争。 而它之所以有这个底气,背后是钱。 在2026年1月底,Anthropic完成了超过100亿美元的融资,估值达到3500亿美元,最终融资规模可能达到200亿。 根据Menlo Ventures在2025年第四季度的报告,Anthropic在企业市场的占有率已经达到40%,远超OpenAI的27%和谷歌的21%。 而且仅仅半年时间,Claude Code的年化收入就突破了10亿美元。 💡 最近处理AI相关的事情都在ChatTools (https://chattools.top) 上搞定,Claude4.5、GPT5.2都能用,关键是免费还不用折腾网络。 📰 平时会逛逛 AI Inking (https://aiinking.com) 看看AI圈有什么新动向,信息更新挺及时的。
配图 (可多选)
选择新图片文件或拖拽到此处
标签
更新文章
删除文章