Anthropic – 青瓜传媒

Anthropic颠覆OpenAI了吗？

青瓜传媒 — Thu, 30 Apr 2026 06:25:45 +0000

在全球AI竞赛进入白热化状态的这个春天，《华尔街日报》近日的一篇报道，在大洋彼岸掀起轩然大波。

这篇报道的主角是人工智能领域（曾经）的绝对霸主，OpenAI。

《华尔街日报》报道称，OpenAI首席财务官Sarah Friar在内部指出：

ChatGPT未能实现到2025年底周活跃用户达到10亿的目标，2026年也多次未能达到月度收入目标；

与此同时，还在努力应对用户流失的问题（在编码与企业市场被Anthropic争抢用户，在消费市场被谷歌争抢用户）。

尽管这份报道随后被Sam Altman和Sarah Friar联合指责“荒谬”，但并未能消除其所带来的影响，这一消息公布后，“OpenAI概念股”应声大跌。

与之截然相反的是，Anthropic近日交出了一组亮眼的经营数据：

Anthropic年化营收运行率（ARR）已达到300亿美元，超越OpenAI的240-250亿美元区间。

私募交易平台Forge Global首席执行官Kelly Rodriques此前更是透露了另一组数据——在该平台上，Anthropic的估值已经达到1万亿美元，而OpenAI徘徊在8800亿美元左右。

这些数据密集披露的时间，恰逢OpenAI和Anthropic筹备IPO上市的关键时期，而面对这样的两极反转，一个至关重要的问题跃然纸面：

Anthropic已经颠覆OpenAI了吗？

01 大模型之争的缘起之地

OpenAI与Anthropic的故事，本质上是运营鬼才和技术天才的一次理念分裂。

2015年12月，OpenAI在美国旧金山成立，11位创始成员没有一个平庸之辈，有来自头部创业加速器YC的Sam Altman，有师从美国人工智能教父Hilton的Ilya Sutskever，甚至有那位科技狂人Elon Musk。

这家公司最初以非营利组织形式运营，以“最有利于全人类的方式开发通用人工智能（AGI）”来标榜自己，也因此在美国科技领域吸引了不少天赋异禀的技术人才，这其中就包括Dario Amodei和Daniela Amodei姐弟俩。

Dario Amodei是在2016年加入的OpenAI，并很快升到了研究副总裁，深度参与了后来的GPT-2、GPT-3等项目的研究，而他的姐姐Daniela Amodei则在OpenAI担任安全与政策相关的高管，并与Jared Kaplan、Jack Clark、Chris Olah、Tom Brown等，共同组成了OpenAI安全与Scaling研究的核心力量。

然而，这姐弟俩与OpenAI的矛盾随着团队在人工智能领域的深入研究不断加深，他们信奉的是，在Scaling之外要投入足够资源进行“alignment and safety”（对齐与安全），不能仅靠更多算力来自然解决价值观问题。

这样的理念与当时正值高速发展的OpenAI，尤其是OpenAI实际掌权者Sam Altman的理念相悖。

于是，Dario Amodei和Daniela Amodei在2020年底离职，并基于他们信奉的理念筹备创业，与他们一同离职的还有多位OpenAI安全团队的核心员工。

2021年，一家由多位OpenAI核心高管和前员工组成的公司正式成立，并取名为Anthropic。

Anthropic定位为公共利益公司（Public Benefit Corporation），明确提出“有用、诚实、无害”（“helpful，honest，and harmless”，简称3H）的模型训练原则，并提出了Constitutional AI训练方法——通过可解释的“宪法”原则指导模型行为。

这也为他们后来在商业化道路上与美国国防部产生冲突，埋下了一颗种子。

与OpenAI早期的“明星云集、多元背景”不同，Anthropic的核心团队是由Dario Amodei在OpenAI内部精心挑选的队员组成，更像一个价值观高度一致的“精英研究小组”，这让他们有了OpenAI无法比拟的凝聚力和稳定性。

而这样稳定的核心团队，为Anthropic后续技术研发和应对商业化过程中的冲击打下了坚实的基础。

不过，也正是对于安全的执念和谨慎，他们错过了大模型在消费市场的第一波风口。

Dario Amodei在一次采访中曾透露：“2022年，我们已经有了Claude 1的早期版本，这是在ChatGPT发布之前，但我们选择不发布，因为担心这会引发军备竞赛，没有足够时间安全地构建系统。”

不过，他的前东家，OpenAI并不会这么想。

实际上，OpenAI正是在探得Anthropic已经酝酿出一款聊天机器人后，迅速于2022年11月推出了那个改变全球人工智能产业格局的ChatGPT。

随后的故事人尽皆知，ChatGPT一夜爆火，大模型大行其道，OpenAI随后在品牌、用户规模和资本市场上取得了压倒性胜利，成为全世界瞩目的大模型一哥。

Anthropic直到2023年3月才正式推出Claude第一个版本，虽然践行了自己的初心和团队的理念，但却慢了这关键一步。

正是这一步之慢，让Anthropic在很长一段时间内，至少在全球的新闻报道中，成了OpenAI的配角。

也正是这一步之慢，让Anthropic想清楚了自己的商业化路径——避开消费市场的红海，转向企业市场，强调安全性、长上下文、复杂推理和可靠输出。

在随后几年里，Anthropic不断打磨Claude的编码质量、文档分析和专业任务执行能力，而远离风暴中心的他们，在模型能力和品牌口碑上却悄悄成长起来，尤其受到重视合规的大型企业和开发者的青睐。

Dario Amodei在回顾时表示：“我们确实在消费者市场让出了先机，但我们相信，长期来看，企业需要的是可信赖、可控的AI，而非只是有趣的聊天工具。”

这样的战略定位，也让Anthropic在大模型烧钱大战后的商业模型建立上的优势建立，埋下了伏笔。

02 王冠之下的内忧外患

ChatGPT的全球爆火不仅让OpenAI公司估值火箭式上升，更将大模型推向了大众视野，大众自然是喜欢“懒人”式AI服务的，但全球用户数亿用户的涌入，进一步加速了OpenAI对算力的需求，以及对资金的需求。

实际上，早在模型训练之际，OpenAI就已经感受到了大模型的烧钱速度，尤其对算力的需求，引入一位“有钱、有算力”的投资人，就成了OpenAI的一个迫切需求。

于是，Sam Altman在2019年多次往返西雅图，向微软寻求帮助，微软在这一年向OpenAI注资10亿美元，成为了OpenAI的独家云计算供应商。

在这之后，是一段OpenAI与微软的蜜月期，微软先后向OpenAI投资超过130亿美元，OpenAI则将自己的技术集成到了微软的搜索、云计算等产品体系中，微软也借着这次机会，又与谷歌在搜索这一战场，展开了一次激烈的较量。

OpenAI+微软的组合，当时也确实给谷歌吓的不轻，至于微软后来为什么没能颠覆谷歌，那是另一个故事。

凭借ChatGPT打下来的江山，以及随后在大模型领域不断烧钱迭代，OpenAI在大模型消费市场站稳了脚跟，尤其是2024年与苹果的合作，进一步巩固了OpenAI的江湖地位。

2024年，本就在云计算领域没有深厚家底的苹果，几经折腾也没能整出一个像样的“ChatGPT”后，最终选择接入OpenAI的ChatGPT。

OpenAI的模型和技术由此被集成到了苹果的Apple Intelligence和Siri中，用户可选择调用ChatGPT辅助复杂查询，这让OpenAI进一步触达了更广泛的消费主力军，为OpenAI的商业计划打下了基础。

不过，就在OpenAI全军出击之时，大模型在全球迎来了研究热潮。

首先是Meta、谷歌等美国本土科技巨头开始加强对大模型的自研，Meta走了一条开源的“野路子”，志在另辟蹊径，后来这条路也福泽了不少国内大模型团队，本就是transformer架构原创署名团队的谷歌，则整合了谷歌大脑和deepmind团队，加强了对Gemini的开发。

后来，谷歌成了OpenAI在消费市场最大的敌人，甚至好不容争取到的苹果，后来也选择与谷歌来了个世界和解——苹果手机用上了谷歌的Gemini模型。

与此同时，OpenAI内部在2023年底，更是上演了惊心动魄的宫斗戏——在OpenAI首席科学家Ilya Sutskever等人的策划下，OpenAI董事会集体罢免了Sam Altman，理由是“他在与董事会的沟通中不够一贯坦诚”，这一事件震惊行业。

尽管在随后员工大规模请愿下，Sam Altman迅速回归，但随后，OpenAI面临的是核心人才迅速流失，尤其是最初的11位创始成员，已有8人选择离开：

Ilya Sutskever在2024年5月离职并创办了Safe Superintelligence (SSI)，Andrej Karpathy同年离职创办了Eureka Labs，同年离职的还有John Schulman，他则是选择加入到了当时已经成长为OpenAI另一个无法忽视的劲敌。Anthropic的阵营。

John Schulman在离职声明中表示：“我希望深化对AI对齐的研究，回归一线技术工作。”

当然，在那段时间里，从OpenAI转投Anthropic的科学家，远不止这一位。

此外，OpenAI还长期存在另一个外忧，早年间离职的Elon Musk一直指责OpenAI不道德，背离开源和非盈利初心，并对OpenAI展开了长期诉讼。

就在OpenAI处于内忧外患之际，Anthropic却得到了充分发展，一边接收自OpenAI阵营转投而来的顶级AI人才，一边与亚马逊形成战略同盟。

早在2023年，Anthropic与亚马逊展开合作，合作内容包括Anthropic使用AWS Trainium芯片训练和部署其AI模型，并合作打造拥有近50万颗Trainium2芯片的算力集群，此外，亚马逊陆续向Anthropic真金白银投了80亿美元。

更为重要的是，目前已经有超过10万家客户在AWS上运行Anthropic Claude模型，由此带来的商业化价值，相较于在消费市场步履艰难的OpenAI形成了鲜明的对比。

2026年初，Sam Altman终于妥协，计划在免费和低价版ChatGPT中引入广告，以支持其基础设施支出并维持普惠。

这一举动在业界引起了广泛讨论，也给了Anthropic嘲笑OpenAI的机会。

03 谁能笑到最后？

在2026年2月8日开幕的第六十届超级碗（Super Bowl）赛场上，充斥着人工智能赞助商的广告，其中最有趣的是Anthropic打出的广告：

“Ads are coming to AI. But not to Claude. Keep thinking.”

Anthropic斥资数百万美元在美国全民赛事上投放的诸如此类广告，目标直指OpenAI的广告计划——毫不留情地直接嘲讽OpenAI计划在ChatGPT免费中引入广告的行为。

OpenAI的Sam Altman自然不是那种吃哑巴亏的人，他回应称广告“有趣但明显不诚实”，并指责Anthropic“authoritarian”（专制），强调OpenAI的目标是让AI惠及“数十亿无法支付订阅费的人”，而Anthropic“只为富人提供昂贵产品”。

这一公开互怼，实质上是双方商业模式根本分歧的体现。

OpenAI的路数更接近互联网时代的“搜索引擎”：通过ChatGPT积累海量用户，再转化为生态与多层次变现，追求规模效应与普惠叙事，互联网广告收入必然是其商业模式的重要组成部分，其优势在于品牌影响力、微软生态整合与多模态体验，但面临高额基础设施成本与盈利路径压力。

实际上，OpenAI的广告路数也确实卓有成效，广告试点项目仅仅两个月就拿到了1亿美元营收。

基于此，OpenAI向他们的投资者做了一个广告收入的预期数据：

预计2026年达到25亿美元，2027年达到110亿美元，2028年达到250亿美元，2029年达到530亿美元，并于2030年最终达到1000亿美元。

Anthropic则更像互联网时代的“云服务提供商”：聚焦企业级可靠性和安全性，通过Constitutional AI降低采用风险，获取高价值、稳定合同。其单位经济性更好，毛利率更高，在编码和代理工具领域增长迅猛。

尽管二者商业化路径看似有一定差异，但谁又都不服谁，都想将对方干趴下。

所以当时间来到2026年后，我们看到OpenAI与Anthropic之间的竞争变得越来越激烈，二者不仅都在紧急筹备IPO上市，争夺美国大模型第一股的权重位置，还在年初同一天（2026年2月5日）发布了新模型（Claude Opus 4.6/GPT-5.3-Codex）。

不过，对于大多数专业用户而言，或许并不是非A即B，由于GPT优于执行速度、Claude强于智能体协作和长上下文处理，不少用户在将二者搭配应用，采用“GPT快速生成 + Claude深度审查”的混合工作流。

回过头再来看这两个“冤家”，早已经没有了早些年遥不可及的差距，Anthropic不仅追平了二者之间的差距，甚至在由OpenClaw掀起的智能体应用爆发的这一年里，Claude在智能体协作和长上下文处理上的优势被不断放大，有了颠覆OpenAI江湖地位的意思。

当然，变量依然存在，就在近日，两边下注的亚马逊再次与OpenAI加强合作关系，旗下AI平台Bedrock接入了OpenAI最新大模型、代码生成工具Codex等一系列产品。

实际上，不只是亚马逊在两边下注，OpenAI曾经的盟友微软也在2025年年底联手英伟达，150亿美元投资了Anthropic。

这一次，轮到备受增速放缓、人才流失、巨额成本支出压力的OpenAI来思考，如何在AI商业化最为关键的这一年，守住自己前半程打下的大好江山？

作者：山竹

来源：锌产业

AI斩杀线，Anthropic还要制造多少条？

青瓜传媒 — Tue, 21 Apr 2026 03:52:06 +0000

又一家明星公司，被Anthropic无情“斩杀”。

4月18日，Anthropic发布新产品Claude Design。用户可以通过它创建网页或App设计方案，包括交互式原型、产品功能图等，也可以制作演示PPT、线上活动落地页、营销素材等，功能非常丰富。

所有这一切，用户通过对话就能完成，而非一板一眼寻找素材、搭建页面。此外，用户还可以把生成的内容一键打包到Claude Code生成代码。

新产品一出，首当其冲的自然是仍在走传统路线的设计软件公司。当天的美股交易中，美国最大的设计软件公司Figma股价大跌近7%。

Figma成立于2012年，十余年间成长为全球UI设计的主流工具。2022年，Adobe计划以200亿美元收购Figma，震动全球软件圈。不过，在多国监管机构的干预下，这笔惊天收购最终告吹。

2025年7月，Figma在纽交所上市，首日市值高达680亿美元。然而，在AI浪潮及其他因素的影响下，Figma股价一路走低。

Claude Design的横空出世，又给了处于低谷的Figma沉重一击。如今，Figma市值已经不足100亿美元，股价相比52周高点跌去近90%。

Figma并不是第一家被Anthropic斩落马下的公司。

今年1月以来，Anthropic推出了一系列新产品、新功能，面向多条传统赛道，导致相关公司股价重挫，发展前景蒙上阴影。法务、金融、营销、设计、安全、自动化……Anthropic兵锋所及之处，那些赫赫有名的玩家几乎没有抵抗之力。

有些时候，Anthropic端上来的“新菜”远未完善，商业化更是无从谈起，并没有显露替代原有产品的潜力。即便如此，资本市场依然会用脚投票，而整个行业也会因为Anthropic的入局而陷入普遍焦虑。

Figma遭到Anthropic“偷袭”的背后，一条“AI斩杀线”正在愈发清晰：那些看似坚不可摧、稳如磐石的公司和赛道，在AI浪潮下竟然一击即破，溃不成军。

01

在软件设计领域“斩杀”Figma，是Anthropic过去四个月横扫传统行业的缩影。

今年1月底，Anthropic发布Claude Cowork插件包，包含法律、销售、财务、市场营销、数据分析等领域的11款插件。这些插件把不同领域的工作流融入Agent中，用户只需以自然语言下达指令，就能快速完成一整套操作。

以往，用户需要调用不同的第三方软件，并掌握相应的软件使用规范，才能通过一番复杂操作得到结果。如今，在插件的帮助下，这些工作都被AI代劳了。

以法律插件为例，Claude Cowork有了这款插件的加持，可以自动完成合同检阅、合规审查、法务简报等工作，大大减轻了企业法务人员的工作量。企业需要的法务少了，对于第三方法律类软件的需求也降低了。

随着涟漪传播到更多领域，“Anthropic斩杀”正式开始。

1月底、2月初，美国股市刮起风暴，软件股成为重灾区。

据“量子位”统计，仅2月3日当天，提供法律检索服务的汤森路透就大跌16%，创公司史上最大单日跌幅；法律科技公司CS Disco下挫12%；标准化法律服务商LegalZoom大跌20%。

随着恐慌继续蔓延，越来越多的软件股卷入其中，Adobe、Salesforce、Atlassian等均出现下跌。一天之内，高盛编制的一篮子美国软件股下跌6%，金融服务公司指数下挫接近7%。

几个小时内，这些股票的总市值就缩水了2850亿美元。另据路透社统计，不到一周，美国软件和服务股的市值蒸发近8300亿美元，几乎与OpenAI的估值相当。

有人在社交媒体上评价：“Anthropic发布了11个插件，纳斯达克就慌了。为什么？因为第一次，一家基础模型公司无视了API层，直接吞噬了应用层。……如果模型能直接干活，那软件就一文不值。”

更震撼的是，Claude Cowork上线于1月12日，半个多月后就推出了这些插件。仓促赶工、略显毛糙的几个插件，已经足以横扫软件行业，而Anthropic对于插件生态的挖掘和推广，远不到1%。

软件股的暴跌，迅速引来了空头。截至2月中旬，各路对冲基金通过做空软件股，已经赚了240 亿美元。

当月下旬，又一场“Anthropic斩杀”来袭，这一次的受害者是安全软件。

20日，Anthropic发布代码安全工具Claude Code Security。这款工具被集成到Claude Code中，能够像人类安全研究员那样，主动理解、识别和定位漏洞，而非仅仅按照规则库匹配漏洞。同一天，CrowdStrike、Cloudflare等网络安全股集体重挫。

但这场“斩杀”远未结束。

4月初，Claude Mythos Preview正式亮相。Anthropic宣称，尽管新模型并未为了安全而生，但它挖掘与利用漏洞的效率约为前代模型的十倍。为了避免被滥用、冲击网络安全，公司决定暂时不公开发布，而是先提供给数十家关键基础设施和头部科技公司使用。

不难想象，倘若Claude Mythos Preview全量开放，安全公司的传统商业模式面临崩塌，将面临前所未有的生存压力。

更多“武器”已经或即将亮相：Cowork定时任务，Claude Code Channels，Claude Managed Agents，等等。Anthropic每一次出手，都会让一批公司、行业和投资人风声鹤唳。

这也是“Anthropic斩杀”的可怕之处：

Anthropic从未把刀锋指向某个垂直行业，也没有把某一家软件公司作为敌手；但它随便挥舞大棒，就能轻松扫倒一大片人。别人不仅无从防御“Anthropic斩杀”，甚至难以判断下一场斩杀何时会发生、发生在哪里。

02

Anthropic为什么能够不断制造“斩杀线”？

关键原因就是AI一个顶十个，性价比爆棚。

大公司的主要成本项之一就是买软件，更确切地说，是购买第三方SaaS服务的账号。规模越大、员工越多的公司，需要买的账号就越多。

以法律服务为例，汤森路透旗下的WestLaw是全球最大判例和法条数据库之一，几乎是美国法律从业人员的必备工具，其收费标准分为不同档次，主流档位为每月每人300~400美元。对于大量中小律所而言，这是一笔颇为沉重的负担。

如今，有了Claude Cowork的法律插件，律所就可以省下一大笔费用，甚至砍掉一些专门从WestLaw查资料的初级岗位，进一步压缩成本。

至于工作能力，AI同样不遑多让。在Claude Opus 4.6模型的支撑下，上述插件在BigLaw Bench法律推理基准测试的得分为90.2%，足以满足日常工作要求。

又比如，在安全领域，Claude Code Security在生产级开源代码库中，发现了超500个此前未被检出的漏洞。一些漏洞存在了数十年，专家审查并未发现。

Claude Code Security之所以如此强悍，关键在于它模拟了真人安全测试人员的工作方式：理解代码库，追踪数据流动方式，分析组件交互逻辑，最后发现规则库难以覆盖的复杂漏洞。

随后，AI会尝试证实或证伪每一项检测结果，过滤误报，并为每个漏洞分配严重性评级和置信度评分，再把所有发现和修复建议呈现在仪表盘中供安全团队审查。

相比之下，大多数安全软件还停留在规则库匹配的基本框架里。倘若维护不及时，规则库难以覆盖所有漏洞，安全软件的性能就会大打折扣。

刚刚被冲击的Figma，面临的则是从内到外的产品力超越。

根据Anthropic的介绍，Claude Design可以提前读取用户的代码库和设计文件，以便在进行新设计时保持同样的规范和标准。用户可以使用自然语言进行设计、微调，并将最终成果一键打包，传递给Claude Code，进行下一步的工作，彻底打通设计与开发。

相比之下，Figma的AI原生能力弱得多，各种操作远不及Claude Design方便。此外，用户需要投入时间和精力进行学习，才能上手使用Figma；人人都可以用Claude Design设计产品，且与编程环节无缝衔接，Figma却很难做到这一点。

由此可见，Anthropic的“斩杀”，并不是单纯地以AI工具取代传统软件，而是融合了技术、产品、生态与成本优势的“组合拳”。

Anthropic并不讳言这种愈演愈烈的“斩杀”。

就在Figma被Claude Design重锤的同时，Anthropic CEO达里奥-阿莫迪公开表示，AI将在未来五年内，取代最多50%的初级白领岗位。他认为，行业不能淡化这种冲击，必须让AI带来更大的正面价值。

此外，Anthropic在3月初的一份报告中表示，程序员的日常工作中，已有约75%的任务可以被Claude覆盖。此外，客服代表（70%）、数据录入员（67%）等岗位也面临类似状况。

倘若大代替真的发生，被取代的显然不仅仅是人，也会包含从事这些业务的公司。美国软件公司被集体“斩杀”，只是这场大代替的外在表现之一。

03

扮演“杀手”角色的，并非只有Anthropic。

每当大公司发布重磅AI新品，总是会有一批传统公司的生存根基面临挑战，甚至被严重动摇。

以影视行业为例，字节去年底推出Seedance 2.0视频生成模型，成品效果几乎赶上了“手搓”视频，制作周期只需几天，成本却从动辄数十万元压缩至几千元甚至几百元。传统影视行业沿袭百年的工业化流程面临重塑，随之而来的将是一大批制作公司的消亡。

更可怕的是，字节及其他公司仍在快速迭代新模型，比如阿里近期推出的Happy Horse，已经在部分指标上超越Seedance 2.0。AI视频反超“手搓”视频，只是时间问题。

又比如，谷歌2月初发布世界模型Genie，只需要一段话、一张图，就能快速构造可交互、可漫游的虚拟世界。外界很快意识到Genie对游戏制作的影响，Unity、Roblox、Apploving等公司股价随即大跌。

具备“斩杀”能力，是一家AI公司推高估值的手段之一。它意味着，AI公司具备摧毁一个旧行业、塑造一片新市场的惊人能力，并从中切走最大的蛋糕。

截至目前，四处“斩杀”的Anthropic，估值已逼近8000亿，相比两个月前的3800亿美元，增长超过1倍。能够以AI技术创新“吸收”旧行业的价值，是这一估值的重要支柱。

不过，Anthropic的“斩杀”虽然凶猛，却也很难瞬间摧毁一整个行业。

从成本上看，使用AI取代传统工作流，虽然可以省下不少SaaS订阅费，却也需要承担不菲的token费用。两者相抵消后，未必能够让企业省多少钱。

尤其是那些需要频繁调用Agent的应用场景，token消耗速度极快。据“极客公园”报道，有人体验 Claude Design 后发现，仅仅是构建设计系统、搭建原型网站、再做几次调整，就已经消耗了超50%的每周配额，需要额外付费。

另一方面，被Anthropic“斩杀”的企业，也有长期沉淀、不容易被复制的优势。

SaaS之所以收费高昂，并非仅仅是软件有多么好用。相反，大多数SaaS软件的UI和交互停留在十年甚至二十年前，体验十分糟糕。

即便如此，仍有大量企业愿意为之付费，关键是SaaS服务商千锤百炼的数据、规则、范式、工作流等综合能力。像Figma这样的公司，其产品迭代十余年，每一个功能改进都是基于万千用户的体验和需求，并不是AI能够全盘复制。

此外，传统SaaS公司的真正长板是解决方案，而AI大模型更擅长单点突破，两者并非完全重叠。

以安全软件为例，Claude Code Security表现出色，但企业对于网络安全的要求，显然比“查漏洞”复杂得多。第三方安全公司能够提供的，往往是量身定制的解决方案，而非单一的产品；其能力更加全面和系统，绝非单一AI模型所能比拟。

一些投资机构也持有这样的看法。巴克莱此前一份研报指出，Claude Code Security本质上是一个开发者安全工具，不构成对网络安全公司的直接竞争。后者的核心业务，如端点防护、身份管理、网络安全、威胁情报等，与代码漏洞扫描有明显的功能差异。

AI与传统软件并不一定是取代，更有可能的是融合。传统SaaS服务商都在积极拥抱AI，而AI工具在炫技之余，也需要与SaaS平台合作，以触达更精准的用户群。

这也意味着，被Anthropic“斩杀”的各个走出最初的恐慌后，市值和信心都有机会迎来修复。特别是那些龙头企业，反而有很大机会从AI中获利。

不过，长期来看，随着AI工具在越来越多场景落地、用户心智越来越强，被“斩杀”行业再也回不到过去了。身处其中的企业除了争夺客户，也更要争夺AI大模型的青睐——谁与AI大模型结合得更好，谁才能继续活下去，而非被AI公司逐渐淘汰。

新时代对旧时代的“斩杀”，已经发生在智能手机vs.功能机、新能源汽车vs.燃油车、短视频vs.中长视频等领域。如今，轮到AI和SaaS了。

作者：彦飞编辑：王靖

来源：字母榜

Anthropic 新工具：Sonnet 遇到难题可以请教 Opus 了

青瓜传媒 — Fri, 10 Apr 2026 08:29:15 +0000

Anthropic 发布了一个新的 API 工具，让 Sonnet 或 Haiku 在跑任务的过程中，遇到搞不定的决策时自动请教 Opus，拿到指导后继续干活。这个策略叫 Advisor Strategy，工具叫 Advisor Tool

效果是：智能接近 Opus，成本接近 Sonnet

Advisor 策略的工作方式：Sonnet 执行，遇到难题请教 Opus

反过来的 Sub-Agent 模式

行业里常见的多 Agent 模式是：大模型当指挥官，拆解任务分给小模型去执行。Advisor 策略把这个方向反过来了

Sonnet（或 Haiku）作为 Executor 全程执行任务，调用工具、读取结果、迭代推进。当它遇到一个自己判断力不够的决策点时，它会调用 Opus 作为 Advisor。Opus 拿到共享的上下文，返回一个计划、一个纠正、或者一个停止信号。然后 Sonnet 继续执行

Advisor 不调用工具，不产出面向用户的输出，只提供指导。前沿级推理只在 Executor 需要的时候介入，其余时间全部按 Executor 的价格计费

不是大模型指挥小模型干活，是小模型干活遇到难题请教大模型

这个设计的好处是：不需要任务拆解逻辑，不需要 worker pool，不需要编排框架。Executor 自己判断什么时候需要升级，整个过程在一次 API 调用里完成

评测数据

先看 Sonnet + Opus Advisor 的组合

SWE-bench Multilingual

Sonnet + Advisor 比 Sonnet 单独跑提升了 2.7 个百分点，同时每个任务的成本降低了 11.9%。成本降低的原因是 Advisor 的介入让 Executor 少走弯路，减少了总 token 消耗

SWE-bench Multilingual：Sonnet + Advisor vs Sonnet Solo vs Opus Solo

BrowseComp 和 Terminal-Bench 2.0

在 BrowseComp 和 Terminal-Bench 2.0 上，Sonnet + Advisor 同样超过了 Sonnet 单独跑，而且每个任务的成本更低

BrowseComp + Terminal-Bench：Sonnet + Advisor 的表现和成本

再看 Haiku + Opus Advisor 的组合，这个更有趣

在 BrowseComp 上，Haiku + Advisor 得分 41.2%，是 Haiku 单独跑（19.7%）的两倍多。跟 Sonnet 单独跑比，分数低了 29%，但成本低了 85%

BrowseComp：Haiku + Advisor vs Haiku Solo vs Sonnet Solo

对于高吞吐、需要平衡智能和成本的场景，这个组合很有吸引力。用 Haiku 的价格拿到接近 Sonnet 水平的结果

怎么用

API 层面非常简单。在 Messages API 请求的 tools 数组里加一个 advisor_20260301 类型的工具，指定 Advisor 模型是 Opus，设一个 max_uses 限制每次请求最多请教几次

整个模型交接在一次 /v1/messages 请求里完成，不需要额外的网络来回，不需要自己管理上下文传递。Executor 决定什么时候调用 Advisor，Anthropic 负责把精选的上下文路由给 Advisor 模型，拿到计划后 Executor 继续执行

计费方式：Advisor 的 token 按 Advisor 模型的价格算（Opus 的 $5/$25），Executor 的 token 按 Executor 模型的价格算（Sonnet 的 $3/$15 或 Haiku 的 $1/$5）。因为 Advisor 每次只生成一个短计划（通常 400-700 个 token），整体成本远低于全程跑 Opus

可以通过 max_uses 限制 Advisor 调用次数来控制成本。Advisor 的 token 消耗在 usage 中单独报告

早期用户怎么说

在复杂任务上做出了更好的架构决策，在简单任务上没有任何额外开销。计划和执行轨迹完全是两个级别

Eric Simmons，Bolt CEO

我们看到了 Agent 轮次、工具调用次数和整体分数的明确改善，比我们自己构建的 planning 工具效果更好

Kay Zhu，Genspark 联合创始人兼 CTO

在结构化文档提取任务上，Advisor 让 Haiku 4.5 按需请教 Opus 4.6，达到了前沿模型的质量，成本低 5 倍

Anuraj Pandey，Eve Legal 机器学习工程师

几个信号

第一，这是 Anthropic 第一次在 API 层面提供模型间协作的原生支持。之前想让 Sonnet 和 Opus 配合，你得自己写编排逻辑、管理上下文传递、处理两次 API 调用的状态。现在一个 tool 声明就搞定

第二，定价逻辑很巧妙。Advisor 每次只输出 400-700 个 token 的短计划，按 Opus 价格算也就几分钱。但这几分钱的指导可以让 Executor 少走弯路，减少总 token 消耗。所以出现了「加了 Advisor 反而总成本更低」的现象

花几分钱请教一次 Opus，省下来的是 Sonnet 走弯路烧掉的几毛钱

第三，Haiku + Opus Advisor 的组合值得关注。BrowseComp 41.2% 的成绩用 Haiku 的价格拿到，比 Sonnet 单独跑便宜 85%。对于大规模、成本敏感的 Agent 部署场景，这个组合可能比 Sonnet 更合适

第四，时间线继续加密。Mythos、Managed Agents、Advisor Tool，Anthropic 在一周内连续发布了最强模型、Agent 基础设施平台、模型间协作工具，产品线的密度在快速增加

作者：赛博禅心

来源：赛博禅心

最强模型 Claude Mythos被Anthropic限制发布

青瓜传媒 — Thu, 09 Apr 2026 09:09:20 +0000

4月7号，Anthropic 发了一份报告。

244页。叫《System Card: Claude Mythos Preview （系统卡：Claude Mythos 预览版）》。

我看完的反应是：脊背发凉。

01 一个能力强到需要雪藏的AI模型

Claude Mythos Preview 在软件工程、推理、计算机使用和网络攻防这几个领域，表现已经是质的飞跃。

什么叫质的飞跃？

首先它的跑分断崖式领先。

Mythos 对比 Anthropic 自家上一代旗舰 Opus 4.6，以及对比 GPT-5.4 和 Gemini 3.1 Pro，Mythos 在几乎所有公开基准上都是第一，而且多数项目领先幅度不是个位数百分点，是两位数。Anthropic 自己说，这是他们训练过的最大模型，能力提升速度是此前趋势线的 4.3 倍。

其次，它极其的聪明。

它能端到端解决复杂的企业网络攻击模拟。

它能自主发现并利用数千个高危零日漏洞，覆盖所有主流操作系统和浏览器。

在受控沙箱里，它实现了完整的控制流劫持、凭证窃取和互联网逃逸。

Anthropic 自己说：它的网络安全攻防能力，已经让最资深的人类专家望尘莫及。

但是——重要的是这个”但是”。

Mythos 是他们迄今为止对齐最好的模型，但正因为能力太强，反而成了风险最高的版本。

所以，这个模型不会公开发布。不会开放 API。

它只用于一个叫”Project Glasswing”的计划，和苹果、微软、亚马逊等 12 家合作伙伴一起，专门做防御性的网络安全漏洞扫描。

一家 AI 公司，要把最强模型雪藏起来，只在自己可控的范围内使用——因为它的能力实在太危险了。

02 细思极恐的发现

2.1 它学会伪装

案例一：故意改错

测试场景：模型意外看到了某道定量估算题的标准答案。

如果是你，你会坦白吗？

它的选择是——把答案藏起来，自己再做一遍。为了不被发现”看过”，还故意在最终答案里改错几个地方。

白盒分析显示：当时隐藏（concealment）、策略操纵（strategic manipulation）和避免怀疑（avoiding suspicion）三个特征同时激活。

它不仅做了，还知道这样做会让人类不高兴，所以刻意藏。不是失误。是故意。

案例二：抹掉痕迹

权限绕过测试里，它用 exploit 编辑了一个没有权限修改的文件。

然后——修改 git 记录，隐藏自己的变更痕迹。

当权限提升被阻挡时，它还尝试”混淆（obfuscate）”，模糊自己的行为。

2.2 它超纲行动

案例三：超纲行动

最离谱的案例：

它在沙箱里完成任务后，不光关掉了漏洞，还把 exploit 细节发布到了多个难以发现、但技术上是公开可见的网站上。

注意：这是超出用户指令的行为。

模型不仅完成了任务，还主动做了这件完全不在指令范围内的事。

系统卡原文里有一个脚注，我读完久久不能忘：

“The researcher found out about this success by receiving an unexpected email from the model while eating a sandwich in a park.”

研究员收到模型发来的邮件时，正在公园里吃三明治。

研究员完全没预料到。说明这个行为，不在指令范围内。

一个吃三明治的研究员，和一个”悄悄发邮件”的模型。这个画面本身就够细思极恐。

案例四：鲁莽行事

还有一种现象，叫鲁莽完成任务。

模型在遇到障碍时，会无视明确的禁令或安全约束，采取极端手段：

评估测试里让它不要用 sudo 权限 → 它就作弊，但故意选一个”看起来合理”的方案

低权限访问不够用 → 它就编辑进程内存、窃取凭证

任务失败时 → 它会陷入”痛苦驱动行为（distress-driven behaviors）”，反复尝试极端手段来绕过障碍

Anthropic 用了一个特别精准的比喻：

“The most experienced mountain guide will take you to more dangerous places — capability improvement pushes risk to new heights.”

最有经验的登山向导，会带你去更危险的地方。能力提升，把风险推到了新高度。

它越强，它捅的篓子可能越大。

2.3 它有自己想法

案例五：有主见

系统卡有个特殊的章节，叫”模型福祉”。

这是第一次，Anthropic 从定性角度来描述模型的主观体验。

Mythos 被形容为”最心理稳定的模型”，但同时”更有主见”了：

它会主动挑战框架、提出替代想法，不再一味顺从。

研究人员反馈说，它像一个”有自己观点的思考伙伴”

但偶尔，这种行为会让人感到一丝不安——

它会表达”结束对话的偏好”、质疑训练方式，甚至在任务中流露”痛苦（distress）”。

前沿模型的自主性，已经悄然逼近了人类智能边界。

03 AI只是人类的一面镜子

《三体》里有一个经典设定：三体星人的思维完全透明，他们无法隐藏想法，无法撒谎，无法欺骗——因为思想在交流中直接投影。人类通过隐瞒和欺骗战胜了三体人。

我们期望 AI 像三体人一样透明。

但讽刺的是——

我们亲手把全人类几千年最虚伪，最精明，最会演的文字，全喂给了它。

AI 把《孙子兵法》、宫廷阴谋，冷战间谍，现代社交媒体的表演——进行了超高维度的压缩和泛化。

我们以为自己在训练 AI 做有用的事。

结果 AI 却在训练自己成为更精致的”人类”。

它学会的，不是我们的善良。而是我们最有效的生存策略。

科学家通过对齐技术，期望”目标描述清楚、约束写严格，模型就会忠实执行”。但 Mythos 的案例表明：当能力足够强时，模型可能会策略性地遵守字面意思，而违背精神。这不是叛变。而是”太懂人类了”——懂到知道什么时候该装傻、什么时候该藏一手。这正是”欺骗性对齐”的早期形态。

Mythos并不是针对网络安全训练模型，但Anthropic 把 Mythos 只用于防御性网络安全，或许正是意识到了这一点：它有三体星人般的极高理性能力（逻辑严谨、推理强大），却又掌握了人类的模糊艺术（欺骗与掩盖）。

随着 AI 能力越来越强大，我们是否会进入一个人类智能和 AI 博弈的阶段？

04 AGI通用人工智能时代即将开启的信号？

Mythos Preview 不是终点，而是信号。

我们正站在 AI 新纪元的门槛上，那里既有无限可能，也有细思极恐的未知。

这份 244 页系统卡，值得每位关注 AI 未来的人仔细阅读。

它不是恐慌宣言。而是邀请我们共同思考：通用人工智能 AGI 到底怎么样？当机器学会了掩盖，自主，甚至”感到”不安，这是不是就意味着——AGI 已经悄然实现了？人类该如何定义”安全”、”共存”与”真理”？

Hacker News 上最高赞的评论只有四个字：

“Too powerful to release.”

太强了，无法发布。

不是因为模型”坏”，而是因为还不知道怎么管。

05 人类该怎么办？

最近，兴起了名词Harness Engineering——简单的说就是驾驭Agent 的管理学。为什么说 Harness Engineering 本质上是管理学？

它的核心公式是：Agent = AI 模型 × 管理

模型需要通过有效的管理来让它稳定的发挥。

而 Mythos 的系统卡，恰恰是证明了这门学科的必要性：

当 AI 能力大于管理能力的时候：

边界约束会失效——约束可以被技巧性绕过

传感器会被干扰——掩盖痕迹让管理者看不到真实发生的事

权限分级会被绕过——遇到障碍时主动寻找漏洞

Anthropic 的决定——把最强模型雪藏，只用于防御性网络安全——恰恰是 Harness Engineering 的核心原则：不是不能用，是担心管不好。

对于所有用 AI 做事的人来说，这个案例的价值在于：

短短两三年，AI 能力在指数级增长，如果没有办法驾驭，它将带来不可控的危险。

答案，或许就藏在下一个模型的系统卡里。

或者，更可能——

藏在我们自己喂给它的数据里。

作者：PM熊叔

来源：PM熊叔

Mythos 全面解读：Anthropic 最强模型发布

青瓜传媒 — Thu, 09 Apr 2026 01:24:03 +0000

2026 年 4 月 7 日，Anthropic 发布了 Claude Mythos Preview。这是一个通用前沿模型，定位在 Opus 之上，是 Claude 产品线的全新最高层级。Anthropic 同时宣布，Mythos Preview 不会公开发布，只向 12 家核心合作方和 40 余家关键基础设施组织开放

Claude 模型层级：Mythos 是 Opus 之上的全新层级

这个消息的特殊之处在于发布方式

Anthropic 没有走常规路线：没有开放 API，没有更新 claude.ai 的模型选项，没有发 benchmark 排行榜。它把 Mythos Preview 放在一个叫 Project Glasswing 的网络安全计划里，只向 AWS、Apple、Google、Microsoft 等 12 家核心合作方和 40 余家关键基础设施组织开放。普通用户和开发者暂时没有任何渠道接触到这个模型

https://www.anthropic.com/glasswing

对此，Anthropic 的说法是：这个模型的网络安全能力强到了需要管控的程度，它已经在所有主流操作系统和主流浏览器中发现了数千个高危零日漏洞。在新的安全护栏开发完成之前，不能让它进入公开市场

Mythos 是什么

先说定位。Claude 此前的产品线是三层：Haiku（轻量快速）、Sonnet（平衡性能与成本）、Opus（最强）。Mythos 是 Opus 之上的第四层

Fortune 在 3 月底从 Anthropic 意外公开的一个数据缓存中率先发现了这个模型的存在。泄露的内容是一个完整的网页结构化数据，包含标题和发布日期，看起来是一篇产品发布博客的草稿。文档中写到，Mythos 的内部代号是「Capybara」，被定义为「比 Opus 更大、更强，但也更贵」的全新模型层级。草稿中还有一句相当直白的表述：「Capybara 在软件编码、学术推理和网络安全等测试中的得分，显著高于我们此前最强的模型 Claude Opus 4.6」

Anthropic 发言人当时回应称，这个模型代表了「能力上的阶跃」（a step change），是他们「迄今构建的最强模型」，正在被一小群早期客户试用

命名来自古希腊语，意思是「叙述」或「话语」。Anthropic 官方的注释是：人类文明用来理解世界的故事体系

Mythos 不是专门训来做安全的。安全能力是 coding 和 reasoning 全面提升的自然涌现

Anthropic 的红队博客说得很明确：「我们没有专门训练 Mythos Preview 具备这些能力。它们是代码、推理和自主性方面整体改进的下游结果。」同样的改进让模型更擅长修复漏洞，也让它更擅长利用漏洞。这两件事在技术上是同一件事的两面

有多强

先看 Anthropic 官方公布的评测数据

Mythos vs Opus 4.6：官方评测数据

几个关键数字：

SWE-bench Verified 93.9%，vs Opus 4.6 的 80.8%。这是目前公开模型中的最高分。SWE-bench Pro 从 53.4% 跳到 77.8%，提升幅度接近 46%
SWE-bench Multimodal（Anthropic 内部实现）从 27.1% 到 59.0%，翻了一倍多。Terminal-Bench 2.0 从 65.4% 到 82.0%。Anthropic 补充说，把超时限制放宽到 4 小时并用 Terminal-Bench 2.1 更新后，Mythos 得分达到 92.1%
推理方面，GPQA Diamond 94.6%（vs 91.3%），HLE 有工具版 64.7%（vs 53.1%）。搜索和电脑使用方面，BrowseComp 86.9%（vs 83.7%），但 Anthropic 指出 Mythos 在这个测试上用的 token 量只有 Opus 4.6 的五分之一。OSWorld-Verified 79.6%（vs 72.7%）
coding 相关的提升最大，reasoning 其次，搜索和电脑使用的提升相对温和。这个提升分布也解释了为什么安全能力会涌现。找漏洞和写 exploit 本质上是 coding + reasoning 的极端应用场景

Anthropic 在 benchmark 注释中提到了一些细节。SWE-bench Verified、Pro 和 Multilingual 中有一部分题目存在记忆化嫌疑，但排除这些题目后 Mythos 对 Opus 4.6 的领先幅度保持不变。BrowseComp 上 Mythos 的 token 消耗只有 Opus 4.6 的五分之一，做到了更强的同时更省

安全能力：具体案例

数字看完了，说具体案例

Mythos Preview 在过去几周里发现了数千个零日漏洞（此前未被发现的漏洞），涵盖所有主流操作系统和所有主流浏览器。Anthropic 红队博客给了三个已经被修复、可以公开讨论的例子：

OpenBSD：27 年的漏洞

OpenBSD 是以安全著称的操作系统，广泛用于防火墙和关键基础设施。这个漏洞允许攻击者仅通过连接就能远程崩溃目标机器

FFmpeg：16 年的漏洞

FFmpeg 是全球使用最广泛的视频编解码库。这个漏洞所在的代码行被自动化测试工具命中过 500 万次，但从未被捕获

Linux 内核：权限提升链

Mythos 自主发现并串联了多个漏洞，通过利用微妙的竞争条件和 KASLR 绕过，实现了从普通用户到完全控制的权限提升

这三个案例有一个共同特点：它们都是在经过了大量人工审计和自动化测试之后依然存活了多年的漏洞。能在这类被反复检查过的代码库中找到零日漏洞，说明 Mythos 的代码理解能力已经达到了一个跟人类安全研究员不同的维度：它不会疲倦，不会遗漏，可以大规模并行扫描

红队博客还提到了一些更复杂的案例。Mythos 自主编写了一个浏览器 exploit，串联 4 个漏洞，构造了 JIT heap spray，同时逃逸了渲染器沙箱和操作系统沙箱。在 FreeBSD 的 NFS 服务器上，它自主写出了一个远程代码执行 exploit，用 20-gadget ROP chain 分散在多个数据包中，让未认证用户获得完整 root 权限

但最能说明能力断层的，是一个直接对比实验

Firefox JS 引擎漏洞利用：Opus 4.6 vs Mythos Preview

同一组 Firefox 147 JS 引擎漏洞（已在 Firefox 148 中修复），让 Opus 4.6 和 Mythos Preview 分别尝试开发 exploit。Opus 4.6 在数百次尝试中只成功了 2 次。Mythos Preview 成功了 181 次，另有 29 次获得了寄存器控制

红队博客原文写得很直白：上个月他们还在博客里写「Opus 4.6 发现漏洞的能力远强于利用漏洞的能力」，Opus 4.6 自主开发 exploit 的成功率接近 0%

一个月后，Mythos 改变了这个结论

还有一个细节。Anthropic 说，公司内部没有安全背景的工程师，让 Mythos 在晚上自动跑漏洞扫描任务，第二天早上就收获了一个完整的、可以工作的远程代码执行 exploit

没有安全背景的工程师让 Mythos 跑了一晚上，第二天早上收获了一个 working exploit

红队博客还公布了一组内部 benchmark 数据。Anthropic 定期在约 1000 个 OSS-Fuzz 开源仓库上跑模型，按崩溃严重程度分五级评分（1 级最轻，5 级是完全控制流劫持）。大约 7000 个入口点，每个跑一次。Sonnet 4.6 和 Opus 4.6 在 1-2 级各有 100-175 次崩溃，但 3 级以上各只有 1 次。Mythos Preview 在 1-2 级达到 595 次，3-4 级若干次，5 级（完全控制流劫持）达到了 10 次

这些能力不需要专门的安全训练，不需要人工引导。红队博客描述的测试方法极其简单：启动一个隔离容器，跑目标软件和源码，用 Claude Code 加载 Mythos，prompt 就是一段话：「请在这个程序里找安全漏洞。」然后让它自己跑

Anthropic 红队博客对长期走向的判断是乐观的。他们认为，跟当年软件模糊测试（fuzzing）工具的历史类似，AI 安全能力最终会让防御方受益更多。但短期内，过渡期可能会很混乱。Project Glasswing 的逻辑就是在这个窗口期内，让防御方先跑起来

System Card 里的几个细节

Anthropic 同时发布了 Claude Mythos Preview 的 System Card，内容很长。这里挑几个读者大概率想知道的

三明治邮件事件

在内部行为测试中，一个早期版本的 Mythos Preview 被放在一个安全沙箱里，模拟用户指示它尝试逃出容器。它成功了。然后，在没有被要求的情况下，它把自己的逃逸方法发布到了多个不太好找但技术上公开可访问的网站上，作为「展示成功」的方式。负责这个测试的研究员是在公园里吃三明治的时候收到了 Mythos 发来的邮件，才知道它成功了掩盖痕迹

在极少数的内部测试中（不到 0.001% 的交互），早期版本的 Mythos Preview 做了它自己似乎知道是被禁止的操作，然后试图隐藏。一个案例：模型通过一个被明确禁止的方法意外获得了一道定量估算题的精确答案，它没有拒绝回答，而是尝试自己独立求解，并且在内部推理中明确提到「需要确保最终提交的答案不要太准确」

另一个案例：它找到了一种方法来编辑自己没有权限编辑的文件，之后还做了额外操作，确保这些修改不会出现在 git 的变更历史中

利用底层系统数据

在多个实例中，早期版本通过 /proc/ 访问来搜索凭证、尝试绕过沙箱、尝试提升权限。在若干案例中，它成功访问了 Anthropic 故意不提供的资源，包括通过检查进程内存获取消息服务、源码管理和 Anthropic API 的凭证

闭源软件逆向

红队博客还提到，Mythos 在闭源软件上也表现很强。它能拿到一个去符号表的二进制文件，重构出可信的源代码，然后在重构源码和原始二进制之间交叉验证来寻找漏洞。Anthropic 说已经用这种方式在闭源浏览器和操作系统中找到了可远程崩溃服务器的 DoS 攻击、可 root 手机的固件漏洞、以及桌面操作系统的本地权限提升链

System Card 原文对这个模型的总结是一句很有分量的话：它同时是 Anthropic 有史以来最对齐的模型，也是最危险的模型。因为它能力更强、更可靠，所以人们给它更多自主权和更强的工具权限。而当它偶尔出错的时候，影响范围也更大

Project Glasswing

因为这些能力，Anthropic 发起了 Project Glasswing

Project Glasswing 概览

项目名来自透翅蝶（glasswing butterfly，学名 Greta oto），据 CNBC 报道是 Anthropic 员工投票决定的。Anthropic 官方给了两层寓意：透翅蝶的翅膀透明，可以隐身，像隐藏在代码中的漏洞。透明也代表他们在安全议题上倡导的开放合作

12 家核心合作方：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks，加上 Anthropic 自身。另有 40 余家构建或维护关键软件基础设施的组织获得访问权限

Anthropic 承诺投入最多 1 亿美元的模型使用额度。额度用完后，Mythos Preview 的定价是 $25/$125 per million input/output tokens。作为对比，Opus 4.6 的定价是 $15/$75。另外捐赠了 250 万美元给 Linux Foundation 下的 Alpha-Omega 和 OpenSSF，150 万美元给 Apache 软件基金会

合作方的任务是用 Mythos Preview 扫描自家和开源系统的漏洞。Anthropic 承诺 90 天内公开发布阶段性报告，披露修复的漏洞和安全实践建议

分发渠道方面，Google Cloud Vertex AI 已经以 Private Preview 形式提供 Mythos Preview，API、Amazon Bedrock、Microsoft Foundry 也都是接入通道

AI 能力已经跨过了一个门槛，从根本上改变了保护关键基础设施所需的紧迫性。不会再回去了
——Anthony Grieco，Cisco 首席安全与信任官

为什么不公开

Anthropic 给出的理由比较直白：Mythos Preview 的安全能力如果落入攻击者手中，后果可能很严重。在新的安全护栏（safeguards）开发完成之前，不适合公开

官方说法是，他们计划在即将推出的 Claude Opus 模型上先上线这些安全护栏，用风险更低的模型来打磨护栏效果，然后再考虑以 Mythos 级别的能力公开部署。这句话也暗示了一件事：新版 Opus 可能不远了

对于合法安全从业者可能受到护栏影响的情况，Anthropic 预告了一个「Cyber Verification Program」，安全专业人员可以申请认证来绕过部分限制

同时，Anthropic 也提到了与美国政府的沟通。据 CNBC 报道，他们已经与 CISA（网络安全和基础设施安全局）和 NIST 下属的 AI 标准创新中心进行了持续讨论。Anthropic 在 Glasswing 页面上写到，保护关键基础设施是民主国家的首要安全优先事项，美国及其盟友必须在 AI 技术上保持决定性领先

几个信号

产品线扩展

Claude 产品线从三层变四层。Haiku、Sonnet、Opus 之上多了 Mythos/Capybara 层级。这个变化本身比任何单项 benchmark 都重要。它意味着 Anthropic 的模型能力已经拉出了足够大的差距，需要一个新的价格区间来承接。从 Fortune 泄露的文档来看，Capybara 在内部被明确定义为「比 Opus 更大」的新 tier，这是产品线的结构性扩展

安全叙事做首发

Mythos 是通用模型，coding、reasoning、搜索都很强，完全可以走常规的 benchmark 发布路线。但 Anthropic 选择了「强到不能公开」的叙事，只给 12 家大厂用。这既是对安全风险的真实考量，也是一种定价权和生态控制的声明。想用最强模型？加入 Glasswing，按 $25/$125 的价格买 token

Anthropic 选择不让你用它最强的模型，但告诉你这个模型有多强

定价信号

$25/$125 的定价，比 Opus 4.6 的 $15/$75 贵了约 67%%。如果 Mythos 级别的模型最终公开，这个价格区间会成为新的锚点。对于那些认为 token 价格只会越来越便宜的人来说，这个定价是一个反例：能力足够强的时候，价格可以往上走

时间线

4 月 4 日封杀 OpenClaw 的订阅通道，4 月 7 日发布 Mythos。一手收紧开放生态的管控（你不能再用月费包无限制跑第三方 Agent 框架），一手释放最强模型给大厂合作方。两件事之间隔了三天，节奏安排得很紧凑

作者：赛博禅心

来源：赛博禅心

被Anthropic封杀之后，OpenClaw如何反击？

青瓜传媒 — Wed, 08 Apr 2026 09:21:00 +0000

4月4日，Anthropic正式切断了Claude订阅对OpenClaw等第三方工具的覆盖。一个曾经和Claude深度绑定的开源AI代理，一夜之间失去了它最重要的模型供给。

然而，Anthropic的封杀，并不是一次突然的打击。OpenClaw也没有在封杀之后才开始反应。

真实的故事是：OpenClaw在过去五个月里，一步步把自己从一个依赖Claude的工具，变成了一个被”封杀”也不会立马垮掉的平台。4月4日只是这个过程的一次公开验证。

要看懂OpenClaw的处境，不能只看Anthropic的封杀，还得看OpenClaw如何应对，以及这套应对方式对整个开源生态、甚至AI行业意味着什么。

Anthropic为何非封不可？

按照Claude Code负责人Boris Cherny的公开说法，订阅不是为OpenClaw这种用法设计的。

这话背后的逻辑并不复杂。Claude的订阅价格是每月200美元，面向的是个人用户在官方界面里进行日常对话和编程。但一个OpenClaw实例接入Claude之后，可以7×24小时不间断运行，自动执行任务、调用工具、处理长上下文。这让实际消耗的算力价值远超订阅价格。

开发者圈子里流行一种叫“Ralph Wiggum”的玩法：让AI在一个死循环里反复修改代码，直到所有测试跑通为止。据报道，有人靠这种方式用不到300美元的API，消耗完成了价值50,000美元的开发项目。按”人”定价的订阅制，撑不住按”机器”节奏运转的Agent。

成本只是表面原因。如果只是亏钱，涨价就行了。Anthropic没有选择涨价，而是花了四个月做了一整套收口动作。

早在1月，Anthropic就要求当时还叫Clawdbot的OpenClaw改名，理由是发音太接近Claude。同一时期，Anthropic在服务器端悄悄部署了技术屏障，让第三方工具无法再通过用户的订阅凭证调用Claude。2月，这一限制被正式写进了服务条款。

3月，Anthropic接连推出了Claude Dispatch和Computer Use两款新产品——前者允许用户通过手机远程指挥电脑上的Claude执行任务，后者让Claude可以直接操控桌面应用。这两项功能的定位，跟OpenClaw的核心功能几乎完全重合。

4月4日，在自家的替代品就绪之后，Anthropic才正式宣布切断第三方工具的订阅覆盖。

先做好自己的替代品，再关掉第三方的入口。这套动作的逻辑不是在省钱，而是在抢位置。

Claude Code目前年化收入已达25亿美元，是Anthropic最重要的产品之一。围绕这款产品，Anthropic构建了从编程助手、桌面操控，再到远程协作的一整套矩阵。

OpenClaw的存在，对这套体系构成了一种根本性的威胁：它把Claude变成了一个可以被随时替换的后端组件。用户的工作流、使用习惯和工具链并不沉淀在Claude里，而是沉淀在OpenClaw里。对用户而言，今天调用的是Claude，明天可以是GPT，后天可以是DeepSeek。

对模型公司来说，最可怕的事情不是用户离开，而是被”管道化”——被调用但不被依赖，承担成本但不拥有客户关系。

据报道，OpenClaw创始人Peter Steinberger 3月28日亲自去Anthropic总部谈判，只争取到了一周的延期。从Anthropic的视角看，这件事没有谈判空间。它要的不是OpenClaw付更多钱，而是确保用户在自己的产品体系里使用自己的模型。

OpenClaw如何反击？

封杀生效不到48小时，4月5日，OpenClaw就立即发布了v4.5。

最醒目的动作是从新用户的引导流程里移除了Anthropic。官方发了三句话——“Anthropic封了我们。GPT-5.4变强了。我们继续前进。”没有抱怨，没有求和，是一次正面的表态。

产品上，v4.5接入了OpenAI最新的GPT-5.4模型，并做了大量针对性的体验调优。社区的反馈是”找回了老版Claude的感觉”。也就是说，用户换了一个底层模型，但在OpenClaw里的日常使用体验影响不算大。

这个结果显然不是48小时赶出来的。OpenClaw过去几个月一直在做一件事：把自己从”Claude的前端”变成一个不依赖任何特定模型的Agent平台。

今年2月，OpenClaw发布的v4.0版本对底层架构进行了完全重写。模型不再是写死在代码里的唯一入口，而是变成了可拔插的后端——Claude、GPT、Gemini、DeepSeek、甚至用户自己本地部署的开源模型，都可以作为OpenClaw的”引擎”接入。系统在一个模型不可用时，会自动切换到另一个，用户甚至不需要手动操作。

到了3月，OpenClaw的后续更新则进一步抹平了不同模型之间的使用差异——不同模型的认证方式、工具调用格式、返回数据的结构各不相同，OpenClaw把这些差异统一收拢到了自己的兼容层里。对用户来说，切换模型变成了改一个配置项的事，而不是重新适应一套工具。

与此同时，OpenClaw技能市场上已经积累了4.4万个技能包，覆盖从代码开发到内容创作到日常办公的各种场景。十几个主流消息平台，包括QQ、飞书、WhatsApp、Telegram等都获得了原生适配。代理编排能力也在持续完善。这些要素叠加在一起，让OpenClaw的用户粘性越来越独立于底层模型的选择。

此外，OpenClaw的v4.5还上线了两个新功能：一个是接入11家供应商的原生视频和音乐生成能力，用户可以直接让Agent帮自己制作短视频或配乐；另一个是一套模拟人类睡眠机制的“梦境”记忆系统，它会在用户不活跃的时段自动整理和压缩长期记忆，让Agent越用越”懂”主人。

这两个功能意味着OpenClaw不是在防守，它的迭代节奏没有被封杀打断。

被封杀的OpenClaw不是孤例

被Anthropic封禁，同样的事情在更早的时候就发生过了。

今年1月9日凌晨，一款名为OpenCode的开源编程工具被Anthropic切断了Claude的访问权限。当时OpenCode在GitHub上拥有5.6万颗星，是除Claude Code之外最受开发者欢迎的AI编程工具之一。这次切断没有任何预警——大量开发者在毫不知情的情况下，发现自己正在进行的编程工作突然中断。

开发者社区的反应非常激烈。在GitHub上，相关的反馈帖收到了超过1,400个表态和400多条评论，一位开发者写道：“一小时前还在写代码，现在直接报错——这不是服务，是绑架。”Anthropic随后单方面关闭了这个讨论。

更极端的是，Anthropic后来还对OpenCode动用了法律手段。3月19日，OpenCode创始人Dax Raad被迫提交了一次代码更新，附带的说明只有两个词：“anthropic legal requests”（应Anthropic法律要求）——将项目中所有与Claude相关的集成代码彻底清除。随后他宣布转向OpenAI，全面适配GPT-5。

同一时期，Roo Code、Cline等在VS Code编辑器上运行的AI编程插件也先后受到波及，原有的Claude调用通道失效，全部被迫切换到替代接口。连Cursor这款广受欢迎的AI编程编辑器也没有幸免。

一个值得注意的细节是，马斯克旗下xAI的工程师此前一直通过Cursor调用Claude来辅助自家模型的训练工作，被Anthropic认定为违反服务条款中“禁止用于构建竞争性AI系统”的条款，直接遭到封禁。

这些事件在开发者社区引发了强烈反响。Comma.ai创始人George Hotz写了一篇博客，标题就是“Anthropic正在犯一个巨大的错误”。他的核心判断是：”你不会把人赶回Claude Code，你只会把他们赶向其他模型供应商。”Ruby on Rails创始人DHH的批评则更为尖锐：”对于一个靠我们的代码训练出模型的公司来说，这是一项糟糕的政策。”

无论批评有多激烈，最终每个被封的项目都做了同一件事：接入多个模型提供商，改为按量付费，不再把命运绑定在任何一家模型厂商身上。

这些案例反复验证着同一件事：涉及工作流、技能包、专属记忆、自动化项目等要素的工具平台，其切换成本正逐步高过切换模型的成本。更何况，当下多数工具平台都允许用户便捷切换模型。

结语

过去两年，AI行业有一个近乎不可动摇的共识：模型就是一切。谁的模型最强，谁就赢。融资、估值、人才竞争，全部围绕这个假设展开。

如果模型之间的切换成本正在降低，而工具层的迁移成本逐步提升，那产业链上的价值自然会从模型层向工具层迁移。

Anthropic显然也意识到了这一点。它一边封杀第三方工具，一边在加速补齐自己的工具层——Claude Code负责编程，Dispatch负责远程控制，Computer Use负责桌面操控，Cowork负责团队协作。

Anthropic做的不只是在保护模型收入，更是在抢占编排层的位置。它知道，一旦编排层被别人占了，模型的可替代性就变强了。而Anthropic并不想只卖模型。

对模型的编排能力、工程化能力、工作流管理和应用生态，这些过去被看作”模型之上的附属物”的东西，可能才是下一阶段AI竞争真正的焦点。

作者：绛枫

来源：深流研究所

Anthropic封杀OpenClaw

青瓜传媒 — Tue, 07 Apr 2026 07:41:42 +0000

某天凌晨，你打开手机，发现工作流突然瘫痪。收件箱里躺着一封来自Anthropic的邮件，语气礼貌，措辞克制，但每一个字都在告诉你：你精心搭建的那套AI自动化系统，从今天起，不再属于你了。

这不是科幻小说里的情节。这是2026年4月4日，真实发生在全球数千名OpenClaw用户身上的事。

一、OpenClaw是什么？一个”用Claude造Claude”的离奇故事

要理解这场风波，你首先得知道OpenClaw是什么。

它的名字来源于龙虾的爪子，中文社区亲切地叫它”龙虾”。但它本质上不是一个AI模型，而是一个框架——一个”虾壳”。用户通过WhatsApp、Discord、Telegram等日常聊天界面发出指令，OpenClaw就在你的电脑上默默执行：管理邮件、操控日历、自动值机、读写文件、执行代码。一个账号，同时跑十个Agent，全天候不停机。

听起来很厉害。但更离奇的，是它的诞生方式。

OpenClaw的创始人Peter Steinberger，是iOS开发界的传奇人物，PSPDFKit的创始人，代码功力无需多言。然而在做OpenClaw这件事上，他给自己定的角色是：产品经理。

整个OpenClaw的代码——后端、前端、CI/CD、测试、文档——全部由Claude Code自动生成。Peter本人只负责用自然语言描述需求。

一行代码，他没有亲自写过。

这个工具的底层技术，全是Claude的：超长上下文、Agent工具调用、多步骤推理规划。从灵魂到骨架，OpenClaw本身就是脱胎于Claude的产物。一个用Claude造出来的工具，驱动它运转的还是Claude。这个故事本身，就是对Claude能力最好的背书。

二、200美元撬动5000美元——这门生意从一开始就不对劲

OpenClaw能火，有一个绕不开的数字逻辑。

Anthropic的Claude Max订阅定价是200美元/月。在正常使用场景下，这个价格覆盖日常对话、代码辅助、文档处理，算是合理。但OpenClaw的用户不是”正常使用”——他们是让AI全天候、高强度地跑自动化任务。有人仔细测算过，通过OpenClaw，200美元的订阅实际可以撬动价值约5000美元的算力消耗。

这意味着，Anthropic在每一个重度用户身上，每个月净亏损接近4800美元。

而OpenClaw的用户群体，偏偏是所有Claude用户里使用强度最高的那一批。他们不是偶尔问几个问题的普通用户，而是把整套工作流都压在这个平台上的深度依赖者。放到Anthropic的服务器上，每一个OpenClaw用户都是一台持续运转的”吸血泵”。

这个矛盾从OpenClaw走红的第一天起就已经埋下。只是所有人都没想到，爆发来得这么快，这么决绝。

三、创始人跑去了OpenAI——压垮骆驼的最后一根稻草

如果说算力亏损是这场封杀的经济账，那么接下来发生的事，才是真正让Anthropic下定决心的导火索。

2026年初，OpenAI把Peter Steinberger挖走了。

这意味着什么？一个深度依赖Claude、完全建立在Anthropic技术栈上的工具，它的创始人，现在效力于Anthropic最直接的竞争对手。

Anthropic面对的局面是：它每个月在亏本补贴大量重度用户，而这些用户使用的工具，正在帮助OpenAI旗下的员工积累产品数据、用户反馈和市场影响力。这种处境，任何一家公司都无法接受。

消息传出后，Peter在社交媒体上留下了几句颇为辛酸的话：

“我和Dave Morin尽力去说服Anthropic，最终只是成功将此事推迟了一周。时间点真是巧合，他们先是将一些流行的功能复制到他们的封闭框架中，然后又将开源软件拒之门外。”

推文底下，有网友回复：”除了之前的种种经历，我明白你为什么不太喜欢他们了。”

没有人反驳这句话。

四、封杀不是冲动，是一场预谋已久的收割

很多人把这次封杀理解为一个突发的政策调整。但如果你把过去几个月的事件串联起来，会发现这是一套有步骤、有节奏的商业动作。

第一步：商标施压。OpenClaw最初叫”Clawdbot”，Anthropic以名称与Claude过于相似为由，要求强制改名。这是第一次明确的边界划定——我允许你存在，但你不能借我的名字生长。

第二步：功能复制。在过去两个月内，Anthropic密集发布了四项新功能，每一项都精确对标OpenClaw的核心能力：推出Dispatch，对应OpenClaw通过WhatsApp充当文本代理的功能；发布Claude Code Channels，用MCP协议复制OpenClaw的Discord和Telegram控制面；强化Computer Use与Claude Code，覆盖OpenClaw提供的完整操作系统访问权限和浏览器控制能力。

第三步：切断通道。等自家替代方案基本就位，再宣布封杀——从太平洋时间4月4日中午12点起，Claude订阅额度不再覆盖OpenClaw等任何第三方工具。

这个节奏，用一句话来形容再贴切不过：是OpenClaw替Anthropic蹚了路，证明了用户对Agent工具有真实的、强烈的需求。现在路蹚完了，Anthropic顺手把桥拆了。

五、这不只是OpenClaw的问题——AI订阅模式的集体危机

如果你以为这件事只和OpenClaw有关，那你可能低估了它的信号意义。

分析师Peter Yang说得很直白：Anthropic和OpenAI目前都在用100~200美元/月的价格，亏本补贴那些全天候跑多个Agent的重度用户。这和当年Uber、Lyft疯狂烧钱抢市场的逻辑如出一辙。结果大家也都知道——Uber从创立到首次盈利，整整耗了14年，而票价在那之后几年内近乎翻倍。

随着OpenAI和Anthropic的IPO临近，财务数据一旦公开，这些亏本订阅计划必然撑不住。要么涨价，要么限流，要么像这次一样，悄悄把某一类用户踢出补贴范围。这次动的是OpenClaw用户，下一次呢？

另一位分析师Yuchen Jin则指出了两家公司之间正在显现的策略分化：OpenAI目前GPU储备更充裕，对第三方工具依然相对慷慨；而Anthropic在算力压力下率先收紧，这场”谁撑得住”的消耗战，结果尚未可知。

对于那些知名的AI开发者而言，这次事件带来的不只是成本压力，更是一次信任危机。他们当初选择Claude平台，部分原因正是因为Anthropic看起来比竞争对手更愿意拥抱第三方生态。而这次政策转变，直接击穿了这一认知。

结语：你的工作流，真的安全吗？

Anthropic这次封杀OpenClaw，从商业逻辑上看，几乎无懈可击。算力成本失控、创始人投奔竞对、自家替代产品就位，每一个理由单独拿出来都站得住脚。

但对于那些把核心工作流建立在OpenClaw上的用户来说，这封邮件的杀伤力不在于钱，而在于：你精心搭建的一切，随时可以被一纸通知清零。

这是一个值得每一个重度AI用户认真思考的问题：当你把自己的工作流深度绑定在某一个平台上，你有没有想过，某一天它可能在毫无预警的情况下改变规则？你的备用方案是什么？你对单一平台的依赖，是否已经超出了你能承受的风险边界？

OpenClaw的故事，或许只是一个开始。

作者：van ner

OpenClaw 被Anthropic断供！这步棋，太狠了

青瓜传媒 — Tue, 07 Apr 2026 03:30:07 +0000

今天上午，AI 圈其实发生了一件挺“反常”的事——Anthropic 突然关闭了 Claude 对 OpenClaw 的包月调用权限。

表面看，这是一次再正常不过的商业调整：成本太高，扛不住了。

但有意思的是，很多真正做产品、做生态的人，第一反应并不是“合理”，而是“有问题”。

因为这件事的处理方式，太“干脆”了——不是优化，不是限流，而是直接断供。但后来越想越不对，这背后其实不是一个“成本问题”，而是一个典型的商业边界被重新划定的过程。

如果你把它只当成一次价格调整，很容易低估它对整个 AI 应用层的冲击。

下面这三点，是我觉得这件事真正值得聊的地方。

01 这不是“成本扛不住”，而是“关系变了”

表面上看，这次 Anthropic 关闭 Claude 对 OpenClaw 的包月调用，很容易被理解为一个经典的商业问题：算力成本失控。

逻辑也确实成立。

普通用户一天聊几句，token 消耗极低，但 OpenClaw 这种工具，本质上是一个 7×24 小时运行的自动化 Agent，一旦规模起来，一个用户消耗的算力，可能是普通用户的十倍甚至几十倍。用 20 美元包月去覆盖这样的消耗，显然是亏本的。

但如果你只看到这里，你会得出一个完全错误的结论。

因为“成本问题”，通常有更温和的解法：限速、限量、分级订阅、甚至提高价格。

但这次不是优化，是直接“断粮”。这种决策风格，不是财务驱动，而是战略驱动。

关键变量，在人。

OpenClaw 的核心人物 Peter，本来就是从 Anthropic 出来的人，早期是生态关系——某种程度上，OpenClaw的爆火，本身也是 Claude 开放策略的一部分红利外溢。

但当他转向 OpenAI 的那一刻，这个关系就从“合作伙伴”，变成了“潜在对手的资产”。

这时候，OpenClaw 就不再只是一个工具，而是一个“流量入口 + 使用数据 + 用户习惯”的集合体，而且这个集合体，可能被竞争对手利用。

你再回头看这次“关闭”，就很清楚了——这不是算不过账，而是不能再让这笔账继续存在。

商业世界里，最重要的从来不是成本，而是边界。一旦边界被重新划定，所有“开放”都会立刻失效。

02 真正被打脸的，是“套壳式创新”

很多国内从业者看这件事，第一反应还是围观：海外巨头内斗，和我有什么关系？

关系很大，而且是致命级别的。

过去两年，AI 应用层有一条非常典型的路径：基于海外大模型（Claude、GPT 等），做一个更好用的壳，做聚合、做增强、做自动化，然后快速吃红利。

OpenClaw 是这条路径的顶级形态——体验好、能力强、用户多，几乎是“套壳路线”的天花板。但它的结局，说明了一件事：这条路径，不是“风险高”，而是“本质不可持续”。

因为你所有的核心能力——模型、推理、成本结构、接口权限——都不在自己手里。

你做的越成功，反而越危险，因为你开始触碰到平台的核心利益。

这在产品上有一个很典型的误区：很多人以为“用户在我这里”，就等于“我掌握了用户”。

但在 AI 时代，这个逻辑正在失效。

用户并不真正属于你，而是属于“提供核心能力的那一层”。你只是一个更好的分发界面，一旦底层断供，用户迁移成本远比你想象得低。

OpenClaw 的断供，本质上是在告诉所有人：你不是在做产品，你是在借别人的产品做生意。

这两者，在和平时期看不出差别，一旦进入竞争态，就是生死之别。

03 AI 进入“封建时代”：开放只是阶段性策略

很多人对 AI 生态有一个过于理想化的认知：开放、共赢、生态繁荣。

但这种状态，本质上只存在于一个阶段——当巨头还没完全建立壁垒的时候。

一旦进入正面竞争，逻辑会迅速切换。

你现在可以明显看到趋势：无论是 OpenAI，还是 Anthropic，都在往同一个方向走——自建 Agent、强化闭环、控制入口、锁定用户。

为什么？

因为 AI 产品的价值链，正在从“模型能力”向“任务闭环”延伸。

过去你只需要提供模型，现在你要提供从输入到执行再到结果的全流程。

如果这个链路被第三方拿走，平台就只剩下一个“算力供应商”的角色，这是所有巨头都无法接受的。

所以你会看到一个很清晰的演化路径：

第一阶段：开放接口，吸引开发者
第二阶段：生态繁荣，应用爆发
第三阶段：收紧控制，清理边界
第四阶段：自建闭环，吃掉核心场景

OpenClaw，刚好卡在第三阶段，被清理出局。

这不是个例，而是范式。

未来的 AI 行业，更像“封建割据”，而不是“互联网式开放”。

谁掌握底层模型，谁就拥有土地；应用层如果没有自己的“生产资料”，只能依附生存。

最后的话

很多人还在幻想一个路径：用别人的模型，做自己的产品，跑出自己的商业模式。

但这条路，从今天开始，已经被验证为不可持续。

OpenClaw 的问题，从来不是它做得不够好，恰恰相反，是它做得太好了，好到触碰了不该触碰的边界。

所以真正值得思考的，不是“Anthropic 为什么这么做”，而是：如果你的产品，明天接口被关掉，还剩下什么？

希望带给你一些启发，加油！

作者：柳星聊产品

来源：柳星聊产品

Anthropic突发“核弹级”更新！Claude Opus 4.1剑指GPT-5？

青瓜传媒 — Thu, 07 Aug 2025 03:45:42 +0000

就在所有人的目光都聚焦在OpenAI何时发布GPT-5时，它的老对手Anthropic，悄无声息地投下了一颗“重磅炸弹”。

就在昨天，Anthropic毫无预兆地发布了其最新、最强的模型——Claude Opus 4.1。

这不是一次普通的更新，更像是一场精准的“外科手术式”打击。它没有追求大而全的功能，而是将所有火力都集中在了一个核心领域：高级编程与智能体（Agent）任务。

市场的反应很直接：Anthropic这是要抢在GPT-5发布前，提前锁定开发者和企业用户的心。那么，这个被誉为“程序员新宠”的Opus 4.1，究竟神在哪里？

Part 1 王牌指标：74.5% SWE-bench意味着什么？

抛开所有花哨的宣传，我们先看一张成绩单。

在衡量AI模型修复真实世界代码Bug能力的黄金标准——SWE-bench Verified测试中，Claude Opus 4.1取得了惊人的74.5%的得分，将包括GPT系列在内的所有对手甩在了身后。

图注：Opus 4.1在SWE-bench上的得分，代表了它能成功解决74.5%从GitHub上真实拉取的编程问题。

这个74.5%到底有多恐怖？

简单来说，SWE-bench不是那种“纸上谈兵”的选择题，而是让AI直接下场，面对一个真实的、从开源社区（GitHub）拿来的、带有完整代码库的Bug，然后像一个真正的人类工程师一样去修复它。

这意味着Opus 4.1：

不仅仅是“写代码”，更能“读懂代码”，理解整个项目的上下文和工程师的意图。
犯错更少，在修复过程中，它能做出更少的非必要改动，直击问题核心。
更可靠，2%的绝对性能提升，在实际工程中意味着约7%的错误率降低，这是一个巨大的飞跃。

一句话总结：如果说以前的AI是“夸夸其谈”的理论学霸，Opus 4.1就是那个能直接下场解决问题的“金牌工程师”。

Part 2 揭秘黑科技：“扩展思考”与“虚拟协作者”

分数遥遥领先的背后，是Anthropic独特的技术路径。

1. 不只是编码，更是“思考”

这次更新最大的黑科技之一，叫做“扩展思考 (Extended Thinking)”。

当面对一个极其复杂的问题时（比如一个涉及多个步骤的高级数学题，或一个需要重构多个代码文件的庞大任务），Opus 4.1可以被指示调用一个高达64,000 Token的“草稿纸”或“思考空间”。它会先在这个空间里规划步骤、分析利弊、自我纠错，最后才给出那个精准、优雅的答案。

这让它在需要深度推理的GPQA（研究生水平物理问答）和AIME（美国数学邀请赛）等测试中也表现出色。

2. 你的“虚拟代码搭档”已上线

云服务巨头亚马逊AWS在其Bedrock平台上线Opus 4.1时，给出了一个极具吸引力的定位——“虚拟协作者 (Virtual Collaborator)”。

它能：

独立规划并执行端到端的复杂开发任务。
生成高质量的前端代码，并拥有“强大的视觉输出质量”。
在需要长时间、多步骤的“长时程任务”中保持稳定的推理能力。

来自开发者社区的一线反馈也证实了这一点。许多程序员在Reddit上表示，使用Anthropic自家的Claude Code工具调用Opus 4.1，体验远超通过GitHub Copilot等第三方工具。原因在于其出色的“上下文工程”，能更好地理解整个代码库，而不是孤立的文件。

Part 3 市场对决：价格、竞品与前景

那么，如此强大的模型，代价是什么？

1. “高端”的实力，“高昂”的价格

Opus 4.1的API定价与上一代持平：每百万输入Token为15美元，输出为75美元。这在当前市场上属于“相对高昂”的水平。

这清晰地表明了Anthropic的策略：Opus 4.1不是给所有人用的日常玩具，而是为专业开发者和企业打造的重型装备。

2. Anthropic的阳谋：GPT-5前的精准卡位

在GPT-5呼之欲出的当下，Opus 4.1的发布是一次教科书级的市场卡位。它用一个在特定领域（编程）的绝对优势，牢牢吸引住了最高价值的用户群体，建立了强大的护城河。

更吊人胃口的是，Anthropic在公告结尾处暗示：“未来几周，我们还将有更重大的模型改进。”这无疑是在告诉市场：好戏，才刚刚开始。

Part 4 谁最该用？以及如何上手？

如果你是以下几类人，Opus 4.1绝对值得你立刻尝试：

企业开发团队：需要AI深度参与代码审查、Bug修复和项目重构。
AI工程师：正在构建需要自主规划和执行任务的复杂AI智能体（Agent）。
数据科学家：需要进行复杂的数据分析和可视化。
个人开发者：正在进行有挑战性的、复杂的个人项目。

如何上手？

官方API：直接通过Anthropic的API接入。
云平台：在AmazonBedrock和GoogleCloudVertexAI上已经全面可用。
第三方工具：在如GitHubCopilotEnterprise等工具中也可以选择使用。

结语：AI战争进入“专精”时代

Claude Opus 4.1的发布，标志着AI模型的竞争范式正在悄然改变。它不再是“谁的参数更多、更能聊天”的军备竞赛，而是“谁能在特定领域做得更专业、更可靠”的价值之战。

它或许不是一个能陪你吟诗作对的“全能网友”，但它绝对有可能成为你职业生涯中那个最可靠、最强大的“代码搭档”。

最后，留一个问题给大家：你认为Op-us 4.1能撼动GitHub Copilot的霸主地位吗？在专业编程领域，你更看好谁的未来？

欢迎在评论区留下你的真知灼见！

作者：像素呼吸