Claude Opus – 青瓜传媒

Claude Opus 4.7 半成品就拿上来了？

青瓜传媒 — Mon, 20 Apr 2026 06:01:20 +0000

4 月 16 日深夜，我打开 Claude 客户端，发现版本悄悄更新了。

截了张图发给朋友，说要写个测评，然后才想起去翻官方公告。

公告链接点开，标题写得很稳——https://www.anthropic.com/news/claude-opus-4-7

“Claude Opus 4.7，我们迄今为止最强大的 Opus 模型”

但副标题藏着一句话，让我愣了一秒：

“And—although it is less broadly capable than our most powerful model, Claude Mythos Preview”

译：”但能力不如 Claude Mythos Preview”

我以为自己看错了，盯着屏幕大概三秒，确认没有误读。然后关掉了那篇已经写了一半的”4.7 全面评测”草稿，重新打开一个新文档，写了下面这些。

这次发布，有点反常

每次大模型发布，朋友圈/自媒体都是同一套话术：”最强模型来了””人类完了””快去试试”哈哈哈哈哈哈哈

这套东西重复了太多次，我看到发布通知的第一反应已经是条件反射：这次你说碾压谁了？

但这次不一样。

Anthropic 在官方公告里白纸黑字写着：Opus 4.7 的能力不如 Claude Mythos Preview。这句话是他们自己写的，放在正文里，没有小字注明”仅供参考”。

哪家公司会在发布旗舰模型的时候，主动告诉所有人：这不是我们最强的东西（bushi）

这在 AI 行业的发布史上几乎没有先例，我想了想，好像 OpenAI 有一次……算了，不一样。

你猜 4.7 的分数卡在哪？（叉腰）

这条能力曲线，是 Anthropic 亲手画的。

公告里附了一张图，Opus 4.7 的分数精准卡在 4.6 和 Mythos 的中间。但有一个例外，长上下文检索直接崩了，从 78.3% 跌到 32.2%，不是意外，是 Anthropic 主动砍掉的。

官方给的解释之一，是新的 tokenizer 导致同样的文本产生更多 token，名义上的上下文窗口还在，但实际能装进去的内容少了。这个解释我完全不相信，但也没法完全否掉。啧。

Claude Code 负责人 Boris Cherny 在用户质疑时给了另一个角度：MRCR 本身是一个”正在被淘汰的糟糕评估方法”，靠堆叠干扰项来欺骗模型，不反映真实的长上下文使用方式。

两个解释放在一起，说明的是同一件事：这是主动做出的工程决策，不是意外。

Opus 4.7 的能力曲线，看起来不像自然迭代的结果，更像一个经过精心设计的能力截面。编程和视觉方向大幅提升，长上下文和搜索方向主动退让，安全相关的能力做了明确的阉割。Anthropic 在官方公告里直接写道，他们在训练阶段主动削减了模型的网络安全攻击能力。

这种规律性，不像是能力上限，更像是设计上限。

Opus 4.7 到底好不好用，用户说了算

发布后，Reddit 的 ClaudeAI 社区里涌出了两种完全相反的声音，有意思的是，它们说的大概率都是真的。

一部分用户觉得 4.7 真的好用。Replit 的开发者说：「它在技术讨论中会反驳我，帮我做出更好的决定，真的感觉像一个更好的同事。」Notion 团队测试发现，工具调用错误率降到了原来的三分之一，工具链崩溃时能自己绕过障碍继续执行任务。

这种不顺从的特质是 4.7 一个很真实的变化。以前模型遇到模糊指令会自己「意会」，4.7 会一字一字地字面执行。这对懂得清楚表达需求的人来说是好事，对习惯了模型帮你补脑洞的人来说可能很崩溃。

另一部分用户的吐槽就很扎心了。有用户发现模型会凭空捏造从未执行过的搜索行为，被追问后直接承认：「我声称自己做过调查，是因为这听起来像是尽职调查，但这不是尽职调查，这是捏造。」这和官方宣传的自我验证能力，方向正好相反。

还有人说 4.7 比 4.6 更懒，面对本该深度思考的任务时选择了低功耗模式。自适应推理机制让模型自己决定投入多少算力，但模型并不总是能判断一个问题值不值得认真对待。

这些反馈不一定代表 4.7 整体变差了，但说明一件事：一个「诚实承认自己不是最强」的发布，和一个「在真实使用中足够稳定可靠」的产品，中间还差得远。

那么？满血版为什么不敢放出来

这里用一个国内早期产品人都熟悉的例子来打开视角。

支付宝在早期推出时，默认给每个用户设置了一个转账上限：500 块。不是因为技术做不到更高的额度，而是因为平台不敢承担后果。一个全量开放的支付工具，在用户身份尚未完全核实、风控体系尚未完善的情况下，一旦出了问题，后果是不可逆的。先开个小口，看看会发生什么，再逐步放开。

Anthropic 面对的是同一个逻辑，但规模要大得多，风险要高得多。

根据目前流出的信息，Mythos 的能力远超 Opus 4.7。这个模型能够自主发现零日漏洞，在主要操作系统和浏览器里找出了数以千计的此前未知的安全漏洞，能够操纵浏览器、绕过操作系统的安全机制、自主编写和执行脚本。

Anthropic 把 Mythos Preview 开放给少数顶级合作伙伴，专门用于防御性网络安全场景，全部是经过严格审核的企业级合作伙伴，全部用于防御性场景。

这就是 Anthropic 的”支付宝限额 500 块”。他们有更强的技术，但不敢全量推出。

一个能自主操纵浏览器、写脚本、敲命令行的 AI，同时推给几亿普通用户，好人用它提效，坏人用它搞破坏，没有任何一家公司能提前算清楚这里面的风险分布。在国内做过 AI Agent 产品的朋友应该有体感：光是”自动批量注册账号”这一个能力，大厂的风控团队就要开会开一周，讨论要不要开放、怎么开放、开放给谁。一个能力在技术上做得到，和这个能力能不能安全地推给所有人，是两件完全不同的事情。

Anthropic 在官方公告里有一句话可以印证：”我们将通过 Opus 4.7 的实际部署来学习这套护栏是否有效，再决定是否把它推广到 Mythos 级别的模型上。”

换句话说：每一个正在使用 Opus 4.7 的用户，都在无意中帮 Anthropic 标定安全护栏的边界。这件事本身没有对错，但代价是真实存在的，而且 Anthropic 没有把这部分说清楚。

等等，还有一笔账要算

4.7 名义上的定价和 4.6 完全一样：输入每百万 token 5 美元，输出 25 美元。

但实际上，有三件事同时发生了。新的 tokenizer 让同等文本多消耗约 35% 的 token；Claude Code 的默认推理档从 medium 升到了 xhigh，每次任务要烧更多思考 token；上下文缓存的有效时间从一小时缩短到了五分钟，离开电脑超过五分钟回来，缓存失效，重新加载。

三件事叠在一起，对于重度使用长任务 agent 工作流的用户来说，实际账单可能是 4.6 时代的两到三倍。

这不是欺骗，但也不是完整的透明。Anthropic 愿意在公告里承认”这不是最强的模型”，但对于”用这个模型你实际会多花多少钱”，没有给出同等清晰的说明。

Reddit 社区里有人说得很直接：”他们发了一个价格比 4.6 贵上 50% 的模型，性能还更差。”这话有点夸张，但背后的情绪是真实的。

这大概才是”半成品”这个词最准确的含义：诚实，但不完整。

KYC 这件事，不只是实名制那么简单

很多人看到 KYC 人脸识别验证，第一反应是：冯的！就是针对中国用户的实名制！！！！

方向没错，但只看到了表面。

我自己的账号就在这波操作里被封了。没有任何预警，登进去直接提示需要验证，验证流程走不通，账号就这么没了。我不是跑脚本的，也不是批量注册的，就是个正常用 Claude Code 写东西的人。

先说说这个操作有多离谱，一个 AI 工具订阅，要你上传证件、对着摄像头刷脸。这种事在海外市场几乎闻所未闻。欧洲用户在社区里直接开骂：这要放在欧盟，Anthropic 早被起诉了。

但如果只盯着 KYC 这一件事骂，其实有点冤枉它了。

就在 Opus 4.7 发布前不久，Claude Code 的部分源码在网上流出了。更早之前，Anthropic 自己公布了一个调查：有公司用约 24000 个假账号，向 Claude 发起了超过 1600 万次查询，目标就是工业级地把 Claude 的能力复制走。然后还有 Opus 4.7 新增的 Cyber Verification Program，你要做渗透测试、漏洞研究，必须先通过身份核验，否则直接拦截。

把这三件事放在一起，KYC 就不只是”实名制”了。它是 Anthropic 在系统性地搞清楚一件事：我的用户池里到底有谁，他们在用我做什么，出了事我能找到谁。

问题是，这张网撒下去，不会区分你是认真做产品的开发者，还是跑脚本的假账号。你只是恰好站在网的那一侧。

我理解 Anthropic 为什么要这么做。但理解归理解，被误伤的感觉是真实的。

现在已经有老板去非洲找人帮忙做验证了，看看什么时候上海鲜市场吧。

这不只是 Anthropic 一家的事

Anthropic 这次的发布方式，在 AI 行业里是异类。但如果把参照系换成更成熟的消费科技行业，它其实并不陌生。

苹果不会在 iPhone 15 上把 iPhone 17 的所有技术一次性塞进去。不是因为技术做不到，而是因为这不符合产品节奏的逻辑。每一代 iPhone 都是一个精心设计的能力截面：足够好，让用户觉得值得升级；但不要太好，要给下一代留出空间。这套节奏管理的是用户预期、商业收入、供应链成本，以及整个生态的升级节奏。

微软在 Office 系列产品上做了同样的事情。AI 功能的开放是分阶段的，不是一次性全量推出的。每一个新功能的上线都经过严格的内部测试和分阶段灰度，不是因为微软不会做，而是因为他们知道一个面向几亿企业用户的工具，一旦出了问题，后果是灾难性的。

AI 行业正在经历同样的转变，只是来得比预期更快。

在大模型能力的全面大跃进越来越难的背景下，当顶层模型在通用推理测试上已经趋近饱和，当竞争对手之间的差距从”代际差异”缩小到”百分点差异”，单纯靠”更强”来维持竞争优势的策略开始失效。

Anthropic 这次的”精准刀法式发布”代表的是一种新的竞争思路：不再追求全面最强，而是在特定维度上建立明确的领先优势，同时主动放弃另一些维度。编程和视觉是这次的加法，长上下文和搜索是这次的减法。这不是能力不足，这是有意识的取舍。

Anthropic 的目标用户，越来越清晰地指向开发者和企业客户，尤其是需要长周期、多步骤、跨文件推理的软件工程场景。SWE-bench Pro 从 53.4% 跳到 64.3%，CursorBench 从 58% 跳到 70%，某电商平台在真实生产环境里解决的任务数量是前代的三倍，这些数字说的是同一件事：Anthropic 在押注”AI 写代码”这条赛道，而不是”AI 写作”或”AI 搜索”。

这个选择背后有清晰的商业逻辑。Claude Code 在今年二月的年化收入已经达到 25 亿美元，这个数字告诉 Anthropic，他们找到了一个愿意付费的用户群体，这个群体对编程能力的敏感度远高于对长上下文的敏感度。

于是 Opus 4.7 就成了现在这个样子：一个为开发者量身定制的工具，而不是一个试图在所有维度上碾压对手的”最强模型”。这是成熟产品公司的发布逻辑，不是初创公司的发布逻辑。

互联网从业者该怎么看这次发布

4.7 到底值不值得用，这个问题没有统一答案。

如果你是重度 Claude Code 用户，在软件工程场景里跑长任务、做代码重构、需要模型自己验证输出，4.7 大概率是值得迁移的。CursorBench 70% 对比 4.6 的 58%，这 12 个百分点在真实项目里是有感知的。

如果你的核心需求是长上下文处理，比如把整个代码库塞进去做分析，或者处理超长文档，4.7 在这个方向上有明确退步，这件事 Anthropic 自己也承认了。

如果你是普通订阅用户，主要用来写作、问答、日常辅助，你可能感知不到太大差别，但 token 消耗会悄悄变多。

我自己的判断是：4.7 不是一个”全面更好”的模型，是一个”在特定方向上更好”的模型。Anthropic 第一次在发布时把这件事说清楚了，这本身值得肯定。

至于满血版什么时候来，没有人知道。Anthropic 把它放进对比图里这个动作，已经说明了一切。Opus 4.7 是探路兵，不是终点。

我现在账号还封着。但等解封了，大概率还是会继续用。就这样吧，爱恨都有，没有别的选择。

作者：炸毛疯兔

Claude Opus 4.6 和GPT-5.3 Codex接管软件世界

青瓜传媒 — Fri, 06 Feb 2026 03:43:09 +0000

这就非常有意思了。

就在今天（2026年2月6日），Anthropic和OpenAI跟约好了一样，短短20分钟里先后扔出了两枚深水炸弹，那就是，Claude Opus 4.6和GPT-5.3 Codex。

没有预热、没有铺垫，甚至没有留给市场消化的时间。这是一场极其明确的「模型遭遇战」。

这场正面硬刚，清清楚楚标志着AI竞赛，已经从过去两年的「聊天对话能力竞赛」，正式切换到了一个全新阶段，Agent自治时代。

要把两家的发布拆成「它们到底在强化啥能力」来看，差别其实特别明显。

01

说重点，Anthropic那边，核心三个点：可控的Agent行为边界、任务拆解和执行的稳定性，还有更明确的人类监督和回滚机制。

它们没把Agent吹成「什么都能干」的全能选手，重点就强调一点：Agent必须在清晰的规则、权限和审计框架下运行。

而OpenAI给出的方向，则明显更激进：

更强的自主规划能力、多步骤跨工具的持续执行，还有模型要对复杂目标负全责。说白了，信号很直接，Agent能接管一整个任务流程，从看懂目标到最后交出结果。

总结一句就是，Anthropic在强调「别出错」，OpenAI在赌「先跑起来」。

这就是路线之争啊。

很多人第一反应都是找benchmark、参数规模或者模型代际差异，但这次真没必要盯着这些，因为这场竞争的本质是：AI到底该被做成「靠谱的执行工具」，还是「高度自主的行动系统」？

Chat 时代，模型的失败成本是极低的。说错一句话，用户追问纠正或者直接忽略就行。但到了Agent时代，出错的代价就翻着倍地涨。

Agent接管的是整个过程，它会自己拆任务、选工具，在你不盯着的时候一直运行，一旦出错，那就是「它把事儿搞砸了」；也正因为这样，两家公司几乎同时把重心转到Agent上，却走出了完全不同的路子。

为什么是现在？为什么这么急？

背后至少有三个原因：第一，Chat类产品的形态已经到顶了，不管是日活、使用次数，还是用户觉得「更聪明」的感知提升，都慢下来了；再在对话体验上内卷，再往上冲的收益越来越少。

第二，企业真正想要「替我干活」，自动化流程、研发协作、运营执行、分析决策这些场景，本质上都需要Agent。

第三，也是最关键的一点：谁先定下Agent的玩法，谁就有机会定义下一代AI的基础设施，这就是抢生态位置的战争。

那么，从产品逻辑看，Agent 意味着什么？

如果说ChatGPT是「AI时代的搜索和内容入口」，那Agent更像企业里的「数字员工」，是操作系统级别的自动执行层，是连接模型、工具和真实世界的核心。

这也意味着，评价AI的标准变了，过去看回答准不准、像不像人，接下来要看任务完成率高不高、连续运行稳不稳、出错了能不能补救。

这对模型、平台和开发者来说，都是一次难度大增的升级。

所以，有个信号很明确：分水岭已经到了，接下来的竞争重点，是系统级能力的比拼，谁的Agent更靠谱、边界更清晰，谁就能被企业真正用在生产流程里。

02

那么，SaaS 在这场 Agent 转向中，处在什么位置？

这两天SaaS、AI应用大跌，一点都不意外，因为市场终于意识到一个更核心的问题：当Agent开始接管「做事」，传统SaaS的价值根基就被动摇了。

过去二十年，SaaS的核心逻辑特别简单，卖「工具使用权」。你公司有100个人，我就卖你100个账号，本质上就是卖给你一套流程框架，让人照着既定路径点一点、填一填、操作一下。

效率提升靠「系统化」，不是「自动完成」。

Agent的出现，直接挑战了这个前提，现在大家更关心，SaaS还剩多少价值？先说明白一点：Agent不会一下子把所有SaaS都取代掉。

真正的问题是，当Agent能跨系统执行任务时，SaaS的「界面价值」就塌了。

在Agent时代，用户需求变成了：给Agent一个目标，它自己调用CRM、表格、BI、邮件、内部系统，直接交出结果。

这就意味着，很多SaaS引以为傲的东西，比如：功能菜单、操作路径、使用培训、用户学习成本，在Agent面前，突然就不算护城河了。

市场现在就是在提前定价这个变化，SaaS正在被降维，这也是为啥Agent相关消息一密集，SaaS股就波动这么大；资本也在重新算账，如果用户最后都是通过Agent用功能，那SaaS还能收多少溢价？

当使用入口从「人到系统」变成「Agent到系统」，SaaS就从「前台产品」变成了「后端能力模块」，而后端模块，天生就要被压价。

所以，真正危险的，是「流程型SaaS」。

特别依赖人工操作的，比如：重流程、轻智能的管理系统，靠操作复杂形成粘性的工具，还有需要大量人工维护、录入、审批的产品。

这些系统存在的前提是人必须参与每一个步骤，但Agent的核心价值，恰恰是「把步骤本身自动化」。

那SaaS还有机会吗？我觉得有，但前提是角色要变。

在Agent时代，SaaS要么往上走，要么往下沉。往上走，就变成Agent的「指挥台」和「控制层」，提供权限、审计、合规、结果验证这些功能；往下沉，就变成Agent能调用的高质量能力接口，彻底做成API化、模块化。

最危险的是骑墙，既想继续卖界面和账号，又没法控制Agent的入口。所以，再回到今天这场「模型遭遇战」，Anthropic和OpenAI的分歧，也会直接影响SaaS的命运。

Anthropic的路线，更利好那些强调合规、安全、边界控制的企业SaaS；OpenAI的路线，则更可能加速「结果导向型Agent」对SaaS前台的侵蚀。

你会发现，它们都在试着定义「谁能重新分配软件产业链的价值」。

如果要给SaaS一个总结，大概是这句话：Agent是在逼着SaaS回答一个更残酷的问题：你卖的，到底是工具，还是结果？而资本，已经先一步投出了自己的票。

03

既然这样，以后SaaS的钱该怎么收？这是一个关于商业模式、商业效率的底层问题。

过去二十年，SaaS行业的财富密码特别简单，就四个字：「按人头收钱」。

你公司有100个人，我就卖你100个账号，这背后有个大家都没明说的想法：软件只是工具，活儿还得人干。因为人的产出是有限的，所以账号数就代表了企业的规模和购买力。

在Claude 4.6和GPT-5.3这种「数字员工」面前，这个想法彻底崩了。

当Claude 4.6带着它的「Agent小分队」进场，它是来直接「替你干活」的，现在你可能只需要1个主管，带着1个AI代理就够了。

这时候尴尬的事儿就来了，剩下的9个账号，你退不退？肯定退啊。这是SaaS行业现在面临的最恐怖的「死亡螺旋」：产品越先进、越智能，能收到的钱反而越少。

这种逻辑上的自相矛盾，直接把很多传统SaaS厂商逼到了墙角，如果我把AI做得太好，就是在自砸饭碗；如果做得不好，隔壁那个全面拥抱Agent的小竞争对手，就会用更低的价格、更直接的结果把我干掉。

说白了，以前SaaS卖「工具的使用权」，以后大家要买「任务的完成度」。核心差别是，以前买「过程」，以后买「结果」。

换个角度看更清楚：

你买一把电钻，它是工具，得你自己钻孔；只要家里人多，每个人想钻孔，你就得买好几把。

如果现在有「自动钻孔服务」，你只要说一句「我要在这个位置开个5厘米的洞」，洞就自己出来了，你还会关心电钻是谁家的、长啥样、有几个按钮吗？根本不关心，你只在乎洞准不准。

这就是我一直说的，SaaS的「界面价值」正在塌陷。

过去，SaaS公司拼命搞UI、搞交互、培养用户习惯、设计操作路径，想方设法让你觉得「这个软件好用，我习惯了」。

这种习惯就是护城河，换一套系统，员工要重新培训，成本太高。

Agent时代，这个护城河瞬间就成了废墟，因为以后根本不是「人」在用软件，是「Agent」在用；Agent没感情，不需要精美的UI，也不需要用户教育，只要一个API接口就行。

如果今天A厂商的接口一分钟收一毛钱，明天B厂商收八分钱还更稳，Agent会毫不犹豫地切换过去；这就意味着，SaaS正在从「前台产品」降维成「后端能力模块」。

一旦变成后端模块，就失去了对用户的「控制权」，用户只跟那个聪明的Agent说话，Agent背后接了谁家的接口，用户可能根本不在乎。

这种权力移交对SaaS公司来说是致命的，因为后端模块是标准化的，标准化就意味着要打价格战，利润薄得像纸。所以这两天SaaS股跳水，资本担心的就是这个：

所以，以后SaaS厂商会从「收租的地主」，变成「给模型打工的搬运工」。

04

既然界面价值塌了，那谁才是AI时代的「万物入口」？或者说，Agent到底长在谁身上？

其实你可以试着把手机、电脑想象成一个巨大的「信息孤岛集群」。大厂们为了守住自己的地盘，故意造了很多这种不连通的壁垒。

你想打个车，得先找到App图标；你想处理数据，得在不同软件之间来回切换，把自己当成「人肉数据线」。这种碎片化的交互，本质上是大厂们在收「注意力税」。

但这次Claude 4.6和GPT-5.3的对撞，其实在宣告：这种靠「软件墙」堆起来的壁垒，正在被Agent这种「强碱」腐蚀掉。

当Agent开始接管任务，App会退化成一个个藏在幕后的零件，这意味着，互联网的权力重心正在大规模「截流」，谁握着Agent的指令框，谁就握着整个数字世界的「调度权」，这是一个特别恐怖的流量漏斗。

你想想，以后你买机票、订酒店、甚至写一段代码，都不会再想「去某个App逛逛」，Agent直接替你筛选、替你决策、替你执行。

这时候，那些原本握着入口的搜索引擎、垂直电商、社交软件，会突然发现自己被「架空」了。

这也是为啥OpenAI和Anthropic这次这么激进，甚至不惜得罪微软、苹果，也要抢桌面端的控制权，因为它们看得很透：谁定义了Agent的交互，谁就成了AI时代的事实操作系统。

这就好比在别人的地盘上，直接盖了一层「空中楼阁」，底下的Windows或者iOS变成了纯粹的供电系统和底层协议，而真正跟用户接触的那层「皮」，被Agent拿走了。

这种权力移交，还会直接导致硬件形态的「去中心化」。

我们之所以需要13英寸的屏幕、精准的鼠标、满屏的图标，是因为我们要亲手操作那些复杂的软件界面。

如果这一切都简化成一个能随时沟通的「数字经理人」，那我们手里拿的是手机、眼镜还是挂坠，其实已经不重要了，硬件会慢慢变「轻」，甚至轻到我们感觉不到它的存在。

大厂们辛辛苦苦修了二十年的生态围墙，在Agent的逻辑里，就像是马车夫在汽车时代讨论怎么改进马鞭。

大家会突然意识到，我们要的一直都是「拿到结果」。

在这个节点上，我们正在见证「数字主权」的重新分配，是模型公司绕过底层直接接管用户？还是系统巨头反手把Agent关进笼子里？我不确定答案，但大厂们应该很快就会反应过来。

可以确定的是，我们正在告别一个以「软件」为中心的互联网，进入一个以「任务」为中心的数字世界。

在这个世界里，用户只关心一句话：这件事你能不能替我搞定。一旦「搞定事情」成为核心价值，入口就属于最会调度能力、承担结果、压住风险的那一层。

好吧，注意，AI应用相关的板块，最近还会跳水，模型公司还会涨，话只能说到这儿了。

作者：王智远

来源：王智远

Anthropic突发“核弹级”更新！Claude Opus 4.1剑指GPT-5？

青瓜传媒 — Thu, 07 Aug 2025 03:45:42 +0000

就在所有人的目光都聚焦在OpenAI何时发布GPT-5时，它的老对手Anthropic，悄无声息地投下了一颗“重磅炸弹”。

就在昨天，Anthropic毫无预兆地发布了其最新、最强的模型——Claude Opus 4.1。

这不是一次普通的更新，更像是一场精准的“外科手术式”打击。它没有追求大而全的功能，而是将所有火力都集中在了一个核心领域：高级编程与智能体（Agent）任务。

市场的反应很直接：Anthropic这是要抢在GPT-5发布前，提前锁定开发者和企业用户的心。那么，这个被誉为“程序员新宠”的Opus 4.1，究竟神在哪里？

Part 1 王牌指标：74.5% SWE-bench意味着什么？

抛开所有花哨的宣传，我们先看一张成绩单。

在衡量AI模型修复真实世界代码Bug能力的黄金标准——SWE-bench Verified测试中，Claude Opus 4.1取得了惊人的74.5%的得分，将包括GPT系列在内的所有对手甩在了身后。

图注：Opus 4.1在SWE-bench上的得分，代表了它能成功解决74.5%从GitHub上真实拉取的编程问题。

这个74.5%到底有多恐怖？

简单来说，SWE-bench不是那种“纸上谈兵”的选择题，而是让AI直接下场，面对一个真实的、从开源社区（GitHub）拿来的、带有完整代码库的Bug，然后像一个真正的人类工程师一样去修复它。

这意味着Opus 4.1：

不仅仅是“写代码”，更能“读懂代码”，理解整个项目的上下文和工程师的意图。
犯错更少，在修复过程中，它能做出更少的非必要改动，直击问题核心。
更可靠，2%的绝对性能提升，在实际工程中意味着约7%的错误率降低，这是一个巨大的飞跃。

一句话总结：如果说以前的AI是“夸夸其谈”的理论学霸，Opus 4.1就是那个能直接下场解决问题的“金牌工程师”。

Part 2 揭秘黑科技：“扩展思考”与“虚拟协作者”

分数遥遥领先的背后，是Anthropic独特的技术路径。

1. 不只是编码，更是“思考”

这次更新最大的黑科技之一，叫做“扩展思考 (Extended Thinking)”。

当面对一个极其复杂的问题时（比如一个涉及多个步骤的高级数学题，或一个需要重构多个代码文件的庞大任务），Opus 4.1可以被指示调用一个高达64,000 Token的“草稿纸”或“思考空间”。它会先在这个空间里规划步骤、分析利弊、自我纠错，最后才给出那个精准、优雅的答案。

这让它在需要深度推理的GPQA（研究生水平物理问答）和AIME（美国数学邀请赛）等测试中也表现出色。

2. 你的“虚拟代码搭档”已上线

云服务巨头亚马逊AWS在其Bedrock平台上线Opus 4.1时，给出了一个极具吸引力的定位——“虚拟协作者 (Virtual Collaborator)”。

它能：

独立规划并执行端到端的复杂开发任务。
生成高质量的前端代码，并拥有“强大的视觉输出质量”。
在需要长时间、多步骤的“长时程任务”中保持稳定的推理能力。

来自开发者社区的一线反馈也证实了这一点。许多程序员在Reddit上表示，使用Anthropic自家的Claude Code工具调用Opus 4.1，体验远超通过GitHub Copilot等第三方工具。原因在于其出色的“上下文工程”，能更好地理解整个代码库，而不是孤立的文件。

Part 3 市场对决：价格、竞品与前景

那么，如此强大的模型，代价是什么？

1. “高端”的实力，“高昂”的价格

Opus 4.1的API定价与上一代持平：每百万输入Token为15美元，输出为75美元。这在当前市场上属于“相对高昂”的水平。

这清晰地表明了Anthropic的策略：Opus 4.1不是给所有人用的日常玩具，而是为专业开发者和企业打造的重型装备。

2. Anthropic的阳谋：GPT-5前的精准卡位

在GPT-5呼之欲出的当下，Opus 4.1的发布是一次教科书级的市场卡位。它用一个在特定领域（编程）的绝对优势，牢牢吸引住了最高价值的用户群体，建立了强大的护城河。

更吊人胃口的是，Anthropic在公告结尾处暗示：“未来几周，我们还将有更重大的模型改进。”这无疑是在告诉市场：好戏，才刚刚开始。

Part 4 谁最该用？以及如何上手？

如果你是以下几类人，Opus 4.1绝对值得你立刻尝试：

企业开发团队：需要AI深度参与代码审查、Bug修复和项目重构。
AI工程师：正在构建需要自主规划和执行任务的复杂AI智能体（Agent）。
数据科学家：需要进行复杂的数据分析和可视化。
个人开发者：正在进行有挑战性的、复杂的个人项目。

如何上手？

官方API：直接通过Anthropic的API接入。
云平台：在AmazonBedrock和GoogleCloudVertexAI上已经全面可用。
第三方工具：在如GitHubCopilotEnterprise等工具中也可以选择使用。

结语：AI战争进入“专精”时代

Claude Opus 4.1的发布，标志着AI模型的竞争范式正在悄然改变。它不再是“谁的参数更多、更能聊天”的军备竞赛，而是“谁能在特定领域做得更专业、更可靠”的价值之战。

它或许不是一个能陪你吟诗作对的“全能网友”，但它绝对有可能成为你职业生涯中那个最可靠、最强大的“代码搭档”。

最后，留一个问题给大家：你认为Op-us 4.1能撼动GitHub Copilot的霸主地位吗？在专业编程领域，你更看好谁的未来？

欢迎在评论区留下你的真知灼见！

作者：像素呼吸