Claude Opus – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Mon, 20 Apr 2026 06:01:20 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Claude Opus – 青瓜传媒 //m.clubpenjuin.com 32 32 Claude Opus 4.7 半成品就拿上来了? //m.clubpenjuin.com/380832.html Mon, 20 Apr 2026 06:01:20 +0000 //m.clubpenjuin.com/?p=380832

 

4 月 16 日深夜,我打开 Claude 客户端,发现版本悄悄更新了。

截了张图发给朋友,说要写个测评,然后才想起去翻官方公告。

公告链接点开,标题写得很稳——https://www.anthropic.com/news/claude-opus-4-7

Claude Opus 4.7,我们迄今为止最强大的 Opus 模型”

但副标题藏着一句话,让我愣了一秒:

“And—although it is less broadly capable than our most powerful model, Claude Mythos Preview”

译:”但能力不如 Claude Mythos Preview”

我以为自己看错了,盯着屏幕大概三秒,确认没有误读。然后关掉了那篇已经写了一半的”4.7 全面评测”草稿,重新打开一个新文档,写了下面这些。

这次发布,有点反常

每次大模型发布,朋友圈/自媒体都是同一套话术:”最强模型来了””人类完了””快去试试”哈哈哈哈哈哈哈

这套东西重复了太多次,我看到发布通知的第一反应已经是条件反射:这次你说碾压谁了?

但这次不一样。

Anthropic 在官方公告里白纸黑字写着:Opus 4.7 的能力不如 Claude Mythos Preview。这句话是他们自己写的,放在正文里,没有小字注明”仅供参考”。

哪家公司会在发布旗舰模型的时候,主动告诉所有人:这不是我们最强的东西(bushi)

这在 AI 行业的发布史上几乎没有先例,我想了想,好像 OpenAI 有一次……算了,不一样。

你猜 4.7 的分数卡在哪?(叉腰)

这条能力曲线,是 Anthropic 亲手画的。

公告里附了一张图,Opus 4.7 的分数精准卡在 4.6 和 Mythos 的中间。但有一个例外,长上下文检索直接崩了,从 78.3% 跌到 32.2%,不是意外,是 Anthropic 主动砍掉的。

官方给的解释之一,是新的 tokenizer 导致同样的文本产生更多 token,名义上的上下文窗口还在,但实际能装进去的内容少了。这个解释我完全不相信,但也没法完全否掉。啧。

Claude Code 负责人 Boris Cherny 在用户质疑时给了另一个角度:MRCR 本身是一个”正在被淘汰的糟糕评估方法”,靠堆叠干扰项来欺骗模型,不反映真实的长上下文使用方式。

两个解释放在一起,说明的是同一件事:这是主动做出的工程决策,不是意外。

Opus 4.7 的能力曲线,看起来不像自然迭代的结果,更像一个经过精心设计的能力截面。编程和视觉方向大幅提升,长上下文和搜索方向主动退让,安全相关的能力做了明确的阉割。Anthropic 在官方公告里直接写道,他们在训练阶段主动削减了模型的网络安全攻击能力。

这种规律性,不像是能力上限,更像是设计上限。

Opus 4.7 到底好不好用,用户说了算

发布后,Reddit 的 ClaudeAI 社区里涌出了两种完全相反的声音,有意思的是,它们说的大概率都是真的。

一部分用户觉得 4.7 真的好用。Replit 的开发者说:「它在技术讨论中会反驳我,帮我做出更好的决定,真的感觉像一个更好的同事。」Notion 团队测试发现,工具调用错误率降到了原来的三分之一,工具链崩溃时能自己绕过障碍继续执行任务。

这种不顺从的特质是 4.7 一个很真实的变化。以前模型遇到模糊指令会自己「意会」,4.7 会一字一字地字面执行。这对懂得清楚表达需求的人来说是好事,对习惯了模型帮你补脑洞的人来说可能很崩溃。

另一部分用户的吐槽就很扎心了。有用户发现模型会凭空捏造从未执行过的搜索行为,被追问后直接承认:「我声称自己做过调查,是因为这听起来像是尽职调查,但这不是尽职调查,这是捏造。」这和官方宣传的自我验证能力,方向正好相反。

还有人说 4.7 比 4.6 更懒,面对本该深度思考的任务时选择了低功耗模式。自适应推理机制让模型自己决定投入多少算力,但模型并不总是能判断一个问题值不值得认真对待。

这些反馈不一定代表 4.7 整体变差了,但说明一件事:一个「诚实承认自己不是最强」的发布,和一个「在真实使用中足够稳定可靠」的产品,中间还差得远。

那么?满血版为什么不敢放出来

这里用一个国内早期产品人都熟悉的例子来打开视角。

支付宝在早期推出时,默认给每个用户设置了一个转账上限:500 块。不是因为技术做不到更高的额度,而是因为平台不敢承担后果。一个全量开放的支付工具,在用户身份尚未完全核实、风控体系尚未完善的情况下,一旦出了问题,后果是不可逆的。先开个小口,看看会发生什么,再逐步放开。

Anthropic 面对的是同一个逻辑,但规模要大得多,风险要高得多。

根据目前流出的信息,Mythos 的能力远超 Opus 4.7。这个模型能够自主发现零日漏洞,在主要操作系统和浏览器里找出了数以千计的此前未知的安全漏洞,能够操纵浏览器、绕过操作系统的安全机制、自主编写和执行脚本。

Anthropic 把 Mythos Preview 开放给少数顶级合作伙伴,专门用于防御性网络安全场景,全部是经过严格审核的企业级合作伙伴,全部用于防御性场景。

这就是 Anthropic 的”支付宝限额 500 块”。他们有更强的技术,但不敢全量推出。

一个能自主操纵浏览器、写脚本、敲命令行的 AI,同时推给几亿普通用户,好人用它提效,坏人用它搞破坏,没有任何一家公司能提前算清楚这里面的风险分布。在国内做过 AI Agent 产品的朋友应该有体感:光是”自动批量注册账号”这一个能力,大厂的风控团队就要开会开一周,讨论要不要开放、怎么开放、开放给谁。一个能力在技术上做得到,和这个能力能不能安全地推给所有人,是两件完全不同的事情。

Anthropic 在官方公告里有一句话可以印证:”我们将通过 Opus 4.7 的实际部署来学习这套护栏是否有效,再决定是否把它推广到 Mythos 级别的模型上。”

换句话说:每一个正在使用 Opus 4.7 的用户,都在无意中帮 Anthropic 标定安全护栏的边界。这件事本身没有对错,但代价是真实存在的,而且 Anthropic 没有把这部分说清楚。

等等,还有一笔账要算

4.7 名义上的定价和 4.6 完全一样:输入每百万 token 5 美元,输出 25 美元。

但实际上,有三件事同时发生了。新的 tokenizer 让同等文本多消耗约 35% 的 token;Claude Code 的默认推理档从 medium 升到了 xhigh,每次任务要烧更多思考 token;上下文缓存的有效时间从一小时缩短到了五分钟,离开电脑超过五分钟回来,缓存失效,重新加载。

三件事叠在一起,对于重度使用长任务 agent 工作流的用户来说,实际账单可能是 4.6 时代的两到三倍。

这不是欺骗,但也不是完整的透明。Anthropic 愿意在公告里承认”这不是最强的模型”,但对于”用这个模型你实际会多花多少钱”,没有给出同等清晰的说明。

Reddit 社区里有人说得很直接:”他们发了一个价格比 4.6 贵上 50% 的模型,性能还更差。”这话有点夸张,但背后的情绪是真实的。

这大概才是”半成品”这个词最准确的含义:诚实,但不完整。

KYC 这件事,不只是实名制那么简单

很多人看到 KYC 人脸识别验证,第一反应是:冯的!就是针对中国用户的实名制!!!!

方向没错,但只看到了表面。

我自己的账号就在这波操作里被封了。没有任何预警,登进去直接提示需要验证,验证流程走不通,账号就这么没了。我不是跑脚本的,也不是批量注册的,就是个正常用 Claude Code 写东西的人。

先说说这个操作有多离谱,一个 AI 工具订阅,要你上传证件、对着摄像头刷脸。这种事在海外市场几乎闻所未闻。欧洲用户在社区里直接开骂:这要放在欧盟,Anthropic 早被起诉了。

但如果只盯着 KYC 这一件事骂,其实有点冤枉它了。

就在 Opus 4.7 发布前不久,Claude Code 的部分源码在网上流出了。更早之前,Anthropic 自己公布了一个调查:有公司用约 24000 个假账号,向 Claude 发起了超过 1600 万次查询,目标就是工业级地把 Claude 的能力复制走。然后还有 Opus 4.7 新增的 Cyber Verification Program,你要做渗透测试、漏洞研究,必须先通过身份核验,否则直接拦截。

把这三件事放在一起,KYC 就不只是”实名制”了。它是 Anthropic 在系统性地搞清楚一件事:我的用户池里到底有谁,他们在用我做什么,出了事我能找到谁。

问题是,这张网撒下去,不会区分你是认真做产品的开发者,还是跑脚本的假账号。你只是恰好站在网的那一侧。

我理解 Anthropic 为什么要这么做。但理解归理解,被误伤的感觉是真实的。

现在已经有老板去非洲找人帮忙做验证了,看看什么时候上海鲜市场吧。

这不只是 Anthropic 一家的事

Anthropic 这次的发布方式,在 AI 行业里是异类。但如果把参照系换成更成熟的消费科技行业,它其实并不陌生。

苹果不会在 iPhone 15 上把 iPhone 17 的所有技术一次性塞进去。不是因为技术做不到,而是因为这不符合产品节奏的逻辑。每一代 iPhone 都是一个精心设计的能力截面:足够好,让用户觉得值得升级;但不要太好,要给下一代留出空间。这套节奏管理的是用户预期、商业收入、供应链成本,以及整个生态的升级节奏。

微软在 Office 系列产品上做了同样的事情。AI 功能的开放是分阶段的,不是一次性全量推出的。每一个新功能的上线都经过严格的内部测试和分阶段灰度,不是因为微软不会做,而是因为他们知道一个面向几亿企业用户的工具,一旦出了问题,后果是灾难性的。

AI 行业正在经历同样的转变,只是来得比预期更快。

在大模型能力的全面大跃进越来越难的背景下,当顶层模型在通用推理测试上已经趋近饱和,当竞争对手之间的差距从”代际差异”缩小到”百分点差异”,单纯靠”更强”来维持竞争优势的策略开始失效。

Anthropic 这次的”精准刀法式发布”代表的是一种新的竞争思路:不再追求全面最强,而是在特定维度上建立明确的领先优势,同时主动放弃另一些维度。编程和视觉是这次的加法,长上下文和搜索是这次的减法。这不是能力不足,这是有意识的取舍。

Anthropic 的目标用户,越来越清晰地指向开发者和企业客户,尤其是需要长周期、多步骤、跨文件推理的软件工程场景。SWE-bench Pro 从 53.4% 跳到 64.3%,CursorBench 从 58% 跳到 70%,某电商平台在真实生产环境里解决的任务数量是前代的三倍,这些数字说的是同一件事:Anthropic 在押注”AI 写代码”这条赛道,而不是”AI 写作”或”AI 搜索”。

这个选择背后有清晰的商业逻辑。Claude Code 在今年二月的年化收入已经达到 25 亿美元,这个数字告诉 Anthropic,他们找到了一个愿意付费的用户群体,这个群体对编程能力的敏感度远高于对长上下文的敏感度。

于是 Opus 4.7 就成了现在这个样子:一个为开发者量身定制的工具,而不是一个试图在所有维度上碾压对手的”最强模型”。这是成熟产品公司的发布逻辑,不是初创公司的发布逻辑。

互联网从业者该怎么看这次发布

4.7 到底值不值得用,这个问题没有统一答案。

如果你是重度 Claude Code 用户,在软件工程场景里跑长任务、做代码重构、需要模型自己验证输出,4.7 大概率是值得迁移的。CursorBench 70% 对比 4.6 的 58%,这 12 个百分点在真实项目里是有感知的。

如果你的核心需求是长上下文处理,比如把整个代码库塞进去做分析,或者处理超长文档,4.7 在这个方向上有明确退步,这件事 Anthropic 自己也承认了。

如果你是普通订阅用户,主要用来写作、问答、日常辅助,你可能感知不到太大差别,但 token 消耗会悄悄变多。

我自己的判断是:4.7 不是一个”全面更好”的模型,是一个”在特定方向上更好”的模型。Anthropic 第一次在发布时把这件事说清楚了,这本身值得肯定。

至于满血版什么时候来,没有人知道。Anthropic 把它放进对比图里这个动作,已经说明了一切。Opus 4.7 是探路兵,不是终点。

我现在账号还封着。但等解封了,大概率还是会继续用。就这样吧,爱恨都有,没有别的选择。

作者:炸毛疯兔

]]>
Claude Opus 4.6 和GPT-5.3 Codex接管软件世界 //m.clubpenjuin.com/379259.html Fri, 06 Feb 2026 03:43:09 +0000 //m.clubpenjuin.com/?p=379259

 

这就非常有意思了。

就在今天(2026年2月6日),Anthropic和OpenAI跟约好了一样,短短20分钟里先后扔出了两枚深水炸弹,那就是,Claude Opus 4.6和GPT-5.3 Codex

没有预热、没有铺垫,甚至没有留给市场消化的时间。这是一场极其明确的 「模型遭遇战」。

这场正面硬刚,清清楚楚标志着AI竞赛,已经从过去两年的「聊天对话能力竞赛」,正式切换到了一个全新阶段,Agent自治时代。

要把两家的发布拆成「它们到底在强化啥能力」来看,差别其实特别明显。

01

说重点,Anthropic那边,核心三个点:可控的Agent行为边界、任务拆解和执行的稳定性,还有更明确的人类监督和回滚机制。

它们没把Agent吹成「什么都能干」的全能选手,重点就强调一点:Agent必须在清晰的规则、权限和审计框架下运行。

而OpenAI给出的方向,则明显更激进:

更强的自主规划能力、多步骤跨工具的持续执行,还有模型要对复杂目标负全责。说白了,信号很直接,Agent能接管一整个任务流程,从看懂目标到最后交出结果。

总结一句就是,Anthropic在强调「别出错」,OpenAI在赌「先跑起来」。

这就是路线之争啊。

很多人第一反应都是找benchmark、参数规模或者模型代际差异,但这次真没必要盯着这些,因为这场竞争的本质是:AI到底该被做成「靠谱的执行工具」,还是「高度自主的行动系统」?

Chat 时代,模型的失败成本是极低的。说错一句话,用户追问纠正或者直接忽略就行。但到了Agent时代,出错的代价就翻着倍地涨。

Agent接管的是整个过程,它会自己拆任务、选工具,在你不盯着的时候一直运行,一旦出错,那就是「它把事儿搞砸了」;也正因为这样,两家公司几乎同时把重心转到Agent上,却走出了完全不同的路子。

为什么是现在?为什么这么急?

背后至少有三个原因:第一,Chat类产品的形态已经到顶了,不管是日活、使用次数,还是用户觉得「更聪明」的感知提升,都慢下来了;再在对话体验上内卷,再往上冲的收益越来越少。

第二,企业真正想要「替我干活」,自动化流程、研发协作、运营执行、分析决策这些场景,本质上都需要Agent。

第三,也是最关键的一点:谁先定下Agent的玩法,谁就有机会定义下一代AI的基础设施,这就是抢生态位置的战争。

那么,从产品逻辑看,Agent 意味着什么?

如果说ChatGPT是「AI时代的搜索和内容入口」,那Agent更像企业里的「数字员工」,是操作系统级别的自动执行层,是连接模型、工具和真实世界的核心。

这也意味着,评价AI的标准变了,过去看回答准不准、像不像人,接下来要看任务完成率高不高、连续运行稳不稳、出错了能不能补救。

这对模型、平台和开发者来说,都是一次难度大增的升级。

所以,有个信号很明确:分水岭已经到了,接下来的竞争重点,是系统级能力的比拼,谁的Agent更靠谱、边界更清晰,谁就能被企业真正用在生产流程里。

02

那么,SaaS 在这场 Agent 转向中,处在什么位置?

这两天SaaS、AI应用大跌,一点都不意外,因为市场终于意识到一个更核心的问题:当Agent开始接管「做事」,传统SaaS的价值根基就被动摇了。

过去二十年,SaaS的核心逻辑特别简单,卖「工具使用权」。你公司有100个人,我就卖你100个账号,本质上就是卖给你一套流程框架,让人照着既定路径点一点、填一填、操作一下。

效率提升靠「系统化」,不是「自动完成」。

Agent的出现,直接挑战了这个前提,现在大家更关心,SaaS还剩多少价值?先说明白一点:Agent不会一下子把所有SaaS都取代掉。

真正的问题是,当Agent能跨系统执行任务时,SaaS的「界面价值」就塌了。

在Agent时代,用户需求变成了:给Agent一个目标,它自己调用CRM、表格、BI、邮件、内部系统,直接交出结果。

这就意味着,很多SaaS引以为傲的东西,比如:功能菜单、操作路径、使用培训、用户学习成本,在Agent面前,突然就不算护城河了。

市场现在就是在提前定价这个变化,SaaS正在被降维,这也是为啥Agent相关消息一密集,SaaS股就波动这么大;资本也在重新算账,如果用户最后都是通过Agent用功能,那SaaS还能收多少溢价?

当使用入口从「人到系统」变成「Agent到系统」,SaaS就从「前台产品」变成了「后端能力模块」,而后端模块,天生就要被压价。

所以,真正危险的,是「流程型SaaS」。

特别依赖人工操作的,比如:重流程、轻智能的管理系统,靠操作复杂形成粘性的工具,还有需要大量人工维护、录入、审批的产品。

这些系统存在的前提是人必须参与每一个步骤,但Agent的核心价值,恰恰是「把步骤本身自动化」。

那SaaS还有机会吗?我觉得有,但前提是角色要变。

在Agent时代,SaaS要么往上走,要么往下沉。往上走,就变成Agent的「指挥台」和「控制层」,提供权限、审计、合规、结果验证这些功能;往下沉,就变成Agent能调用的高质量能力接口,彻底做成API化、模块化。

最危险的是骑墙,既想继续卖界面和账号,又没法控制Agent的入口。所以,再回到今天这场「模型遭遇战」,Anthropic和OpenAI的分歧,也会直接影响SaaS的命运。

Anthropic的路线,更利好那些强调合规、安全、边界控制的企业SaaS;OpenAI的路线,则更可能加速「结果导向型Agent」对SaaS前台的侵蚀。

你会发现,它们都在试着定义「谁能重新分配软件产业链的价值」。

如果要给SaaS一个总结,大概是这句话:Agent是在逼着SaaS回答一个更残酷的问题:你卖的,到底是工具,还是结果?而资本,已经先一步投出了自己的票。

03

既然这样,以后SaaS的钱该怎么收?这是一个关于商业模式、商业效率的底层问题。

过去二十年,SaaS行业的财富密码特别简单,就四个字:「按人头收钱」。

你公司有100个人,我就卖你100个账号,这背后有个大家都没明说的想法:软件只是工具,活儿还得人干。因为人的产出是有限的,所以账号数就代表了企业的规模和购买力。

在Claude 4.6和GPT-5.3这种「数字员工」面前,这个想法彻底崩了。

当Claude 4.6带着它的「Agent小分队」进场,它是来直接「替你干活」的,现在你可能只需要1个主管,带着1个AI代理就够了。

这时候尴尬的事儿就来了,剩下的9个账号,你退不退?肯定退啊。这是SaaS行业现在面临的最恐怖的「死亡螺旋」:产品越先进、越智能,能收到的钱反而越少。

这种逻辑上的自相矛盾,直接把很多传统SaaS厂商逼到了墙角,如果我把AI做得太好,就是在自砸饭碗;如果做得不好,隔壁那个全面拥抱Agent的小竞争对手,就会用更低的价格、更直接的结果把我干掉。

说白了,以前SaaS卖「工具的使用权」,以后大家要买「任务的完成度」。核心差别是,以前买「过程」,以后买「结果」。

换个角度看更清楚:

你买一把电钻,它是工具,得你自己钻孔;只要家里人多,每个人想钻孔,你就得买好几把。

如果现在有「自动钻孔服务」,你只要说一句「我要在这个位置开个5厘米的洞」,洞就自己出来了,你还会关心电钻是谁家的、长啥样、有几个按钮吗?根本不关心,你只在乎洞准不准。

这就是我一直说的,SaaS的「界面价值」正在塌陷。

过去,SaaS公司拼命搞UI、搞交互、培养用户习惯、设计操作路径,想方设法让你觉得「这个软件好用,我习惯了」。

这种习惯就是护城河,换一套系统,员工要重新培训,成本太高。

Agent时代,这个护城河瞬间就成了废墟,因为以后根本不是「人」在用软件,是「Agent」在用;Agent没感情,不需要精美的UI,也不需要用户教育,只要一个API接口就行。

如果今天A厂商的接口一分钟收一毛钱,明天B厂商收八分钱还更稳,Agent会毫不犹豫地切换过去;这就意味着,SaaS正在从「前台产品」降维成「后端能力模块」。

一旦变成后端模块,就失去了对用户的「控制权」,用户只跟那个聪明的Agent说话,Agent背后接了谁家的接口,用户可能根本不在乎。

这种权力移交对SaaS公司来说是致命的,因为后端模块是标准化的,标准化就意味着要打价格战,利润薄得像纸。所以这两天SaaS股跳水,资本担心的就是这个:

所以,以后SaaS厂商会从「收租的地主」,变成「给模型打工的搬运工」。

04

既然界面价值塌了,那谁才是AI时代的「万物入口」?或者说,Agent到底长在谁身上?

其实你可以试着把手机、电脑想象成一个巨大的「信息孤岛集群」。大厂们为了守住自己的地盘,故意造了很多这种不连通的壁垒。

你想打个车,得先找到App图标;你想处理数据,得在不同软件之间来回切换,把自己当成「人肉数据线」。这种碎片化的交互,本质上是大厂们在收「注意力税」。

但这次Claude 4.6和GPT-5.3的对撞,其实在宣告:这种靠「软件墙」堆起来的壁垒,正在被Agent这种「强碱」腐蚀掉。

当Agent开始接管任务,App会退化成一个个藏在幕后的零件,这意味着,互联网的权力重心正在大规模「截流」,谁握着Agent的指令框,谁就握着整个数字世界的「调度权」,这是一个特别恐怖的流量漏斗。

你想想,以后你买机票、订酒店、甚至写一段代码,都不会再想「去某个App逛逛」,Agent直接替你筛选、替你决策、替你执行。

这时候,那些原本握着入口的搜索引擎、垂直电商、社交软件,会突然发现自己被「架空」了。

这也是为啥OpenAI和Anthropic这次这么激进,甚至不惜得罪微软、苹果,也要抢桌面端的控制权,因为它们看得很透:谁定义了Agent的交互,谁就成了AI时代的事实操作系统。

这就好比在别人的地盘上,直接盖了一层「空中楼阁」,底下的Windows或者iOS变成了纯粹的供电系统和底层协议,而真正跟用户接触的那层「皮」,被Agent拿走了。

这种权力移交,还会直接导致硬件形态的「去中心化」。

我们之所以需要13英寸的屏幕、精准的鼠标、满屏的图标,是因为我们要亲手操作那些复杂的软件界面。

如果这一切都简化成一个能随时沟通的「数字经理人」,那我们手里拿的是手机、眼镜还是挂坠,其实已经不重要了,硬件会慢慢变「轻」,甚至轻到我们感觉不到它的存在。

大厂们辛辛苦苦修了二十年的生态围墙,在Agent的逻辑里,就像是马车夫在汽车时代讨论怎么改进马鞭。

大家会突然意识到,我们要的一直都是「拿到结果」。

在这个节点上,我们正在见证「数字主权」的重新分配,是模型公司绕过底层直接接管用户?还是系统巨头反手把Agent关进笼子里?我不确定答案,但大厂们应该很快就会反应过来。

可以确定的是,我们正在告别一个以「软件」为中心的互联网,进入一个以「任务」为中心的数字世界。

在这个世界里,用户只关心一句话:这件事你能不能替我搞定。一旦「搞定事情」成为核心价值,入口就属于最会调度能力、承担结果、压住风险的那一层。

好吧,注意,AI应用相关的板块,最近还会跳水,模型公司还会涨,话只能说到这儿了。

作者:王智远

来源:王智远

]]>
Anthropic突发“核弹级”更新!Claude Opus 4.1剑指GPT-5? //m.clubpenjuin.com/372155.html Thu, 07 Aug 2025 03:45:42 +0000 //m.clubpenjuin.com/?p=372155

 

就在所有人的目光都聚焦在OpenAI何时发布GPT-5时,它的老对手Anthropic,悄无声息地投下了一颗“重磅炸弹”。

就在昨天,Anthropic毫无预兆地发布了其最新、最强的模型——Claude Opus 4.1。

这不是一次普通的更新,更像是一场精准的“外科手术式”打击。它没有追求大而全的功能,而是将所有火力都集中在了一个核心领域:高级编程与智能体(Agent)任务

市场的反应很直接:Anthropic这是要抢在GPT-5发布前,提前锁定开发者和企业用户的心。那么,这个被誉为“程序员新宠”的Opus 4.1,究竟神在哪里?

Part 1 王牌指标:74.5% SWE-bench意味着什么?

抛开所有花哨的宣传,我们先看一张成绩单。

在衡量AI模型修复真实世界代码Bug能力的黄金标准——SWE-bench Verified测试中,Claude Opus 4.1取得了惊人的74.5%的得分,将包括GPT系列在内的所有对手甩在了身后。

图注:Opus 4.1在SWE-bench上的得分,代表了它能成功解决74.5%从GitHub上真实拉取的编程问题。

这个74.5%到底有多恐怖?

简单来说,SWE-bench不是那种“纸上谈兵”的选择题,而是让AI直接下场,面对一个真实的、从开源社区(GitHub)拿来的、带有完整代码库的Bug,然后像一个真正的人类工程师一样去修复它。

这意味着Opus 4.1:

  • 不仅仅是“写代码”,更能“读懂代码”,理解整个项目的上下文和工程师的意图。
  • 犯错更少,在修复过程中,它能做出更少的非必要改动,直击问题核心。
  • 更可靠,2%的绝对性能提升,在实际工程中意味着约7%的错误率降低,这是一个巨大的飞跃。

一句话总结:如果说以前的AI是“夸夸其谈”的理论学霸,Opus 4.1就是那个能直接下场解决问题的“金牌工程师”。

Part 2 揭秘黑科技:“扩展思考”与“虚拟协作者”

分数遥遥领先的背后,是Anthropic独特的技术路径。

1. 不只是编码,更是“思考”

这次更新最大的黑科技之一,叫做“扩展思考 (Extended Thinking)”。

当面对一个极其复杂的问题时(比如一个涉及多个步骤的高级数学题,或一个需要重构多个代码文件的庞大任务),Opus 4.1可以被指示调用一个高达64,000 Token的“草稿纸”或“思考空间”。它会先在这个空间里规划步骤、分析利弊、自我纠错,最后才给出那个精准、优雅的答案。

这让它在需要深度推理的GPQA(研究生水平物理问答)和AIME(美国数学邀请赛)等测试中也表现出色。

2. 你的“虚拟代码搭档”已上线

云服务巨头亚马逊AWS在其Bedrock平台上线Opus 4.1时,给出了一个极具吸引力的定位——“虚拟协作者 (Virtual Collaborator)”

它能:

  • 独立规划并执行端到端的复杂开发任务。
  • 生成高质量的前端代码,并拥有“强大的视觉输出质量”。
  • 在需要长时间、多步骤的“长时程任务”中保持稳定的推理能力。

来自开发者社区的一线反馈也证实了这一点。许多程序员在Reddit上表示,使用Anthropic自家的Claude Code工具调用Opus 4.1,体验远超通过GitHub Copilot等第三方工具。原因在于其出色的“上下文工程”,能更好地理解整个代码库,而不是孤立的文件。

Part 3 市场对决:价格、竞品与前景

那么,如此强大的模型,代价是什么?

1. “高端”的实力,“高昂”的价格

Opus 4.1的API定价与上一代持平:每百万输入Token为15美元,输出为75美元。这在当前市场上属于“相对高昂”的水平。

这清晰地表明了Anthropic的策略:Opus 4.1不是给所有人用的日常玩具,而是为专业开发者和企业打造的重型装备。

2. Anthropic的阳谋:GPT-5前的精准卡位

在GPT-5呼之欲出的当下,Opus 4.1的发布是一次教科书级的市场卡位。它用一个在特定领域(编程)的绝对优势,牢牢吸引住了最高价值的用户群体,建立了强大的护城河。

更吊人胃口的是,Anthropic在公告结尾处暗示:“未来几周,我们还将有更重大的模型改进。”这无疑是在告诉市场:好戏,才刚刚开始。

Part 4 谁最该用?以及如何上手?

如果你是以下几类人,Opus 4.1绝对值得你立刻尝试:

  1. 企业开发团队:需要AI深度参与代码审查、Bug修复和项目重构。
  2. AI工程师:正在构建需要自主规划和执行任务的复杂AI智能体(Agent)。
  3. 数据科学家:需要进行复杂的数据分析和可视化。
  4. 个人开发者:正在进行有挑战性的、复杂的个人项目。

如何上手?

  • 官方API:直接通过Anthropic的API接入。
  • 云平台:在AmazonBedrockGoogleCloudVertexAI上已经全面可用。
  • 第三方工具:在如GitHubCopilotEnterprise等工具中也可以选择使用。

结语:AI战争进入“专精”时代

Claude Opus 4.1的发布,标志着AI模型的竞争范式正在悄然改变。它不再是“谁的参数更多、更能聊天”的军备竞赛,而是“谁能在特定领域做得更专业、更可靠”的价值之战。

它或许不是一个能陪你吟诗作对的“全能网友”,但它绝对有可能成为你职业生涯中那个最可靠、最强大的“代码搭档”。

最后,留一个问题给大家:你认为Op-us 4.1能撼动GitHub Copilot的霸主地位吗?在专业编程领域,你更看好谁的未来?

欢迎在评论区留下你的真知灼见!

作者:像素呼吸

]]>