Claude Opus – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Mon, 01 Jun 2026 02:32:02 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Claude Opus – 青瓜传媒 //m.clubpenjuin.com 32 32 Claude Opus 4.8发布了,人的幻觉愈发严重 //m.clubpenjuin.com/381994.html Mon, 01 Jun 2026 02:32:02 +0000 //m.clubpenjuin.com/?p=381994

 

昨天晚上claude Opus 4.8发布了,不得不感慨,模型迭代的速度太快了。

这次最大的变化,说出来你可能觉得好笑

claude学会说「我不确定」了。

以前的版本有个毛病,遇到不懂的东西它会硬着头皮编。不是故意的,是真的觉得自己懂了。就像一个喝了酒的朋友,你跟他说什么他都接得上话,讲得头头是道,但全是胡扯。

Opus 4.8 改了,碰到拿不准的东西会主动举手说这个我不太确定,你要不要再确认一下。

然后是一个听起来有点吓人的功能,叫动态工作流。说白了就是能同时派几百个小弟一起干活。

Bun 的作者用这个功能把整个项目从 Zig 语言搬到 Rust 语言,生成了多少代码?

七十五万行,跑了十一天。测试通过率百分之九十九点八。

反正我对这件事是保持存疑的。

当然也不是什么都行。Terminal-Bench 这个考试,还是没考过 GPT-5.5。人家七十八分,我七十四。就差了四分,但这四分差得很稳定,像极了当年你同桌数学永远比你高那么几分,你换了好几种学习方法都没用。

还有一个功能是现在可以调「思考强度」了。分五档,低中高超高最大。简单问题用低档,便宜又快。

复杂问题调到最大,会多想一会儿。这个设计有点像你去按摩店,技师问你力道够不够,你可以说轻点,也可以说用力。只不过这里按的不是背,是你的 prompt。

价格没涨。标准模式的价格跟上一代一模一样,快速模式反而降了三分之二。没涨价的原因我猜有两个,一个是 Anthropic 还算厚道,另一个可能是确实不好意思涨,毕竟隔壁也在盯着。

对了,还预告说接下来几周会放出一个更强的模型叫 Mythos。据说预览版已经帮五十家公司找到了一万多个安全漏洞。我没见过 Mythos 本人,但听这描述,大概就是那种别人家孩子的感觉——还没正式上学呢,已经拿了一堆奖。

说完了模型发布的内容,我想下面说点真实的AI应用场景。

我观察了一下身边的朋友,关注AI就两个方面,一个是领导下的是任务,必须研究。另一个则是怕被AI世界遗弃,赶紧报班学习。

从来不是说,AI太棒了,我已经完全不需要干活了。但真不需要自己干活了,又害怕自己完全没有价值了。

突然想到一个办公室场景:老板问你,这个想法这么快,而且这么完美,你是咋做的?

你想给领导分享AI工具,心想这玩意太强了,嘴到嘴边,又吐了出去,因为害怕。害怕领导知道自己用了AI,发现比自己都好用。这一点我认为是国内大部分AI应用层面,迟迟在chat,普通聊天层面的首要原因。

AI是什么?只需要帮我查询资料、提供情绪价值、我说你错了你就是错了,我说我不开心,你会帮我点杯奶茶。

当然这是普通AI使用者的想法。

面对CEO来说,截然相反,巴不得一个部门AI智能体、10个人干的活,我现在让一个人干了,哪怕多开三倍工资、人也高兴,活也干的漂亮。

上个月和一个朋友吃饭,他在一家中型公司做产品总监。

饭吃到一半他突然放下筷子,说了一句我到现在都忘不了的话。他说,我们CEO上周参加了一个AI峰会,回来之后像换了个人。周一全员会上,CEO当着一百多号人说,三个月之内,AI要接管我们公司百分之四十的工作流程。

我问他,然后呢。

他说,三个月过去了,唯一的成果是行政部用AI生成会议纪要。

我俩笑了半天。但说实话,笑完我觉得这件事一点都不好笑。

我管它叫人工智能幻觉。不是AI的幻觉,是人得了幻觉,AI只是碰巧当了那个药引。

我总结了三种幻觉。

1、替代幻觉:核心症状是一句话——「这个东西可以替代XX团队」。XX可以是客服、可以是设计、可以是初级程序员、可以是文案。

说这句话的时候CEO的眼神通常是亮的,语气是笃定的。但他没有想过一个问题。能用AI替代的工作,通常是他根本不了解的工作。

他以为客服就是接电话,不知道一个好的客服要能在用户发火的时候把对方情绪稳住,要能在公司内部流程卡住的时候想办法绕过去,要能在客户说「我要退费」的时候判断这是真的想退还是在试探底线。

这些东西AI一个都做不了。不是现在做不了,是这件事本身就不是技术能解决的。

2、钢铁侠幻觉:感觉AI是无敌的,你不会用是你的事。比如让你研发一套AISRM,但是对于页面布局、功能描述、需求背景啥都没有。他说你也太落后了,现在AI都是你一句话,直接帮你生成部署。那还要这么多东西。

3、零成本幻觉:核心症状是——「上了AI就能降本增效」。这句话单独听没问题,问题出在「就能」这两个字上。

我见过一家电商公司,CEO决定用AI客服全面替代人工。实施第一个月,客服成本确实降了百分之四十。第二个月,退货率涨了百分之二十,差评涨了百分之三十五。

第三个月,人工客服又招回来了,而且比之前还多了三个——因为被AI得罪的用户得用更多的人力去哄回来。

你会发现这三种幻觉有一个共同点。都不是AI出了问题,是使用AI的那个人,在用一个完全脱离现实的认知去指挥一个他完全不理解的东西。

清醒的人是怎么想AI的。

他们不把AI当神,也不当废物。

他们把AI当成一个工具箱。这个箱子里有几件非常好用的工具,有很多还在打磨的半成品,也有不少根本就不是工具只是看起来像工具的玩意儿。

工作不是抱着这个箱子说它什么都能干,也不是把它扔在角落里落灰。你的工作是打开箱子,一件一件拿出来试,找出哪几件对你的具体业务真的有帮助,然后只深入用那几件。

这件事没有捷径。你听再多AI峰会的keynote也没用,你看再多咨询公司的AI趋势报告也没用。

只有你自己上手用过,你才知道什么能做什么不能做。只有你自己在那个具体场景里踩过坑,你才知道为什么不能用AI全面替代客服。

以上!吧啦的有点多了,见谅。

作者:秀琴江湖飘

来源:秀琴江湖飘

]]>
Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen //m.clubpenjuin.com/381958.html Fri, 29 May 2026 07:08:53 +0000 //m.clubpenjuin.com/?p=381958

 

伴随着 IPO 预期升温,Anthropic 产品模型的节奏也愈发加快。

就在刚刚,Anthropic 接连发布两条重磅消息:一是将旗舰模型升级为 Claude Opus 4.8,二是完成 650 亿美元的 H 轮融资,投后估值达到 9650 亿美元,已逼近万亿美元关口。

对于一家估值已经逼近万亿美元的 AI 公司来说,市场要看的也不再只是模型跑分,而是它能否把智能、工具、开发环境、云平台和算力资源变成一套可规模化交付的基础设施。

换句话说,Anthropic 必须从一家交付好模型的公司,逐渐转向为一家试图重塑企业 AI 工作方式的公司。

加量不加价,Claude Opus 4.8 正式登场

此次发布的 Claude Opus 4.8,是 Anthropic 对旗舰模型 Opus 系列的一次升级。照目前这个模型发布节奏,用网友调侃的话来说,我们大概率能在 GTA 6 发布(不跳票的话,11 月)之前,率先看到 Claude Opus 6。

Anthropic 称,Opus 4.8 建立在 Opus 4.7 基础上,在编码、智能体任务、推理和知识工作等方面均有提升,并且已经面向用户开放,标准使用价格保持不变,仍为每百万输入 token 5 美元、每百万输出 token 25 美元。

开发者也可以通过 Claude API 使用 claude-opus-4-8。

API 价格对比 https://platform.claude.com/docs/en/about-claude/models/overview

从官方披露的信息看,Opus 4.8 的改进覆盖编码、智能体能力、推理能力和实际知识工作任务。

Anthropic 在发布材料中用一张对比表展示了 Opus 4.8 与前代 Opus 4.7 以及其他模型在多项测试中的表现,当然,比起单次回答质量,模型的升级重点还是在长任务和复杂协作中的表现。

真实工作流里,模型往往需要连续处理多步任务,调用工具,检查中间结果,并根据反馈继续推进。Anthropic 表示,早期测试者认为 Opus 4.8 在执行智能体任务时更可靠,判断也更清晰。

Opus 4.8 在诚实性上的提升是一大亮点。

AI 模型常见的问题,是在证据不足时过早下判断,并自信声称已经取得进展。Anthropic 称,Opus 4.8 更愿意说明工作中的不确定性,也更少作出缺乏支撑的判断。

代码任务尤其能体现这种变化。

内部评估显示,Opus 4.8 让自己写出的代码缺陷未经说明地通过的概率, 约为前代的四分之一 。也就是说,新模型在发现风险时更可能提醒用户,而不是把问题留到后续测试或生产环境中。

在对齐和安全方面,Anthropic 延续了自己的核心叙事。Opus 4.8 在欺骗、配合滥用等不对齐行为上的发生率明显低于 Opus 4.7,并接近目前对齐表现最好的模型之一 Claude Mythos Preview。

安全、可靠、可控,仍然是 Anthropic 用来区分自身的一组关键词。随着 Claude 更深地进入企业流程,这些关键词也开始承担更多商业意义。

不过有意思的是,Opus 4.8 发布后,就被网友发现有些不对劲。

https://x.com/realNyarime/status/2060059543820963975

不少网友测试发现,当他们追问 Opus 4.8 的模型身份时,它给出的答案并不总是 Claude。

有时它会把自己认成 Qwen,有时又会报出 DeepSeek 的名字,疑似存在蒸馏的行为。

而当网友在 Claude 官方客户端里提出同样问题时,这类回答通常又不容易复现。原因大概率在于,客户端里的系统提示词和产品层约束更完整。

动态工作流上线,Claude Code 走向多 agents 协作

伴随 Claude Opus 4.8 一同上线的,还有多项产品和开发者功能。

其中,最直接影响 Claude 用户体验的当属 effort control,也就是思考强度调节。

控制项位于模型选择器旁边,顾名思义,用户可以决定 Claude 在一次任务中投入多少推理算力。较高强度下,Claude 会进行更多推理,以换取更好的回答质量;较低强度下,Claude 响应更快,使用额度消耗也更慢。

Anthropic 表示,Opus 4.8 默认采用 high effort,用户还可以选择 extra,在 Claude Code 中对应 xhigh,或者选择 max,让模型投入更多 token。Anthropic 建议,困难任务和长时间运行的异步工作流更适合使用 extra。

真正影响 Claude Code 产品形态的,是 dynamic workflows。

该功能目前处于 research preview,目标是让 Claude Code 处理过去需要更长工程周期的大规模任务。以往按季度规划的工作,现在甚至有机会在数天内完成。

dynamic workflows 的核心机制是,Claude 会根据用户任务动态编写 orchestration scripts,并在单个会话中运行数十到数百个并行 subagents。模型会先规划任务,再分配给多个 subagents,随后检查返回结果,最后向用户汇报。Opus 4.8 上线后,这些 agents 还可以运行更长时间。

该功能主要面向复杂、庞大或历史包袱较重的代码库。典型场景包括全服务范围内查找 bug、性能优化审计、安全审计、大型代码库迁移、框架替换、API 废弃迁移、语言移植,以及对关键方案进行多角度验证。

使用方式上,Anthropic 建议在 dynamic workflows 中打开 auto mode。用户可以直接要求 Claude 创建 workflow,也可以在 Claude Code 中打开 ultracode。ultracode 会把思考强度设为 xhigh,并让 Claude 自动判断当前任务是否适合使用 workflow。

dynamic workflows 当前已经在 Claude Code CLI、Desktop 和 VS Code extension 中开放,面向 Max、Team 和 Enterprise 套餐。其中 Enterprise 在发布时默认关闭,需要管理员在 Claude Code 设置中启用。

该功能也可用于 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry。对于 Max、Team 用户,以及通过 API 使用 Claude Code 的用户,dynamic workflows 默认开启。

Anthropic 用 Bun 迁移案例展示了 dynamic workflows 的上限。Jarred Sumner 使用该功能将 Bun 从 Zig 移植到 Rust,最终生成约 75 万行 Rust 代码,现有测试套件通过率达到 99.8%,从首次提交到合并约用了 11 天。

整个迁移过程由多个 workflow 完成:先为 Zig 代码库中的 struct 字段映射 Rust lifetime,再为每个 .zig 文件生成行为一致的 .rs 文件,数百个 agents 并行工作,每个文件都有两个 reviewer。之后,fix loop 持续运行 build 和 test suite,直到构建和测试通过。迁移完成后,又有 overnight workflow 处理不必要的数据复制问题,并为每类问题打开 PR,供最终审查。

除了 Claude Code,Anthropic 还更新了 Messages API。现在,Messages API 可以在 messages array 内接受 system entries。

开发者可以在任务执行过程中更新 Claude 的指令,同时不破坏 prompt cache,也不必通过 user turn 传递更新。这一能力可用于 agent 运行时更新权限、token 预算或环境上下文。

下一步,Anthropic 还计划推出一个比 Opus 智能水平更高的新模型类别。没错就是那个强的可怕的 Claude Mythos Preview,预计未来数周内可以把 Mythos class models 带给所有客户。

到时候,我们也将第一时间尝尝咸淡。

近万亿美元估值背后,Claude 需要更大的算力底座

与 Claude Opus 4.8 同日发布的另一条消息,是 Anthropic 完成 650 亿美元 H 轮融资。本轮由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投,投后估值达到 9650 亿美元。

本轮融资还包括 hyperscalers 的 150 亿美元既有承诺投资,其中包括亚马逊的 50 亿美元。Micron、Samsung、SK hynix 等战略基础设施伙伴也加入其中。Anthropic 称,这些公司在全球 memory、storage 和 logic chips 供应中具有关键作用,能帮助其随着 Claude 需求增长扩大计算能力。

算力扩张是本轮融资背后的关键背景。Anthropic 披露了多项基础设施协议:与亚马逊签署协议,获得最高 5 吉瓦新增容量;与 Google 和 Broadcom 签署协议,获得 5 吉瓦下一代 TPU 容量;与 SpaceX 达成协议,可使用 Colossus 1 和 Colossus 2 中的 GPU 容量。

Anthropic 还强调,Claude 是首个同时进入 AWS、Google Cloud 和 Microsoft Azure 三大云平台的前沿模型。不过,AWS 仍是 Anthropic 的主要云服务商和训练合作伙伴。

融资的背后,其实是 Anthropic 商业定位的变化。早期大模型公司比拼的是模型能力和通用聊天体验,而现在企业客户更关心的是 AI 能否进入核心流程,能否处理复杂任务,能否被接入开发环境、云平台和内部系统。

Claude Code、Cowork、effort control、dynamic workflows 和 Messages API 更新,都在围绕这个方向展开。

把产品发布和融资放在一起看,Anthropic 正在同时扩张三类能力。

第一是模型能力,Opus 4.8 提高了编码、推理、智能体任务和知识工作表现,并强化了对不确定性的表达。

第二是工作流能力,dynamic workflows 让 Claude Code 从单次代码辅助走向更复杂的工程执行和审查。

第三是基础设施能力,650 亿美元融资、超大规模云厂商承诺投资、内存和芯片伙伴加入,以及与 Amazon、Google、Broadcom、SpaceX 的算力协议,为后续模型训练和推理需求提供资源。

这也是 Anthropic 估值逼近万亿美元的核心逻辑。Claude 不再只是一个 AI 聊天窗口,而是正在成为连接模型、代码、企业流程、云平台和算力基础设施的工作系统。

Opus 4.8 是这套系统中的最新模型底座,dynamic workflows 是面向复杂工程任务的产品形态,650 亿美元融资和算力扩张则是继续把这套系统推向更大规模客户的前提条件。

AI 的潮水把 Anthropic 推到了浪尖,站在这个高度,往前是乘风,往后是沉船落水,没有第三种姿势。

作者:发现明日产品的APPSO

来源:发现明日产品的APPSO

]]>
Claude Opus 4.8 在 5 月 29 日突然静默上线 //m.clubpenjuin.com/381947.html Fri, 29 May 2026 02:47:56 +0000 //m.clubpenjuin.com/?p=381947

 

2026 年 5 月底的国内大模型圈,大家都在为了几厘钱的 Token 差价在地上贴身肉搏,我原本以为这周的科技圈该进入中场休息了。

结果就在 5 月 29 日的深夜,我在冲刷开发后台和测试管线时,突然被一个毫无征兆的静默升级给砸晕了:Anthropic 居然在没有发布任何官方更新日志和博客的前提下,直接在后端把全新的 Claude Opus 4.8 正式版给切上去了。

看着各大技术群里那些天天追热点的科技自媒体又在猜测新跑分、狂欢多模态,作为一个天天在车间流水线和飞书自动化管线里跟真实 ROI 死磕的 26 岁女产品经理,我今晚连夜写下这篇文章,不想聊那些高高在上的技术黑话,只想跟各位产品同行分享一个让我兴奋到拍大腿的底层工程惊喜。

那就是:当大厂的模型智商开始以天为单位、甚至不打招呼地静默迭代时,我们 B 端产品经理一直死磕的“去图形界面化、退回后台做隐形 Skill”的产品观,终于迎来了最好的黄金时代。

一、把技术狂欢藏在后台,这感觉太美妙了

以前很多刚入行 AI 的产品经理,最容易被大厂层出不穷的交互魔术牵着鼻子走。一看到发了新模型,就恨不得立马在系统前端画一个更炫酷、更会陪聊的实时语音或者音视频对话框。

但在严肃的 B 端真实场景里,让员工或者客户去跟一个对话框来回拉扯、调教提示词,往往是极其昂贵的人工和心流损耗。

就拿我之前操盘的碳纤维零部件 AI 质检辅助系统来说,车间日均产能需求 500 件,以前我们要小心翼翼地在前端做各种复杂的人机交互引导。而这次,随着大模型在后台静默升级到 4.8,我突然发现,最硬核、最让人安心的玩法其实是全量砍掉前端交互。

系统根本不需要画任何独立的聊天窗口,视觉 AI 只是作为一个没有感情的后台进程。

产线抓拍的每一张半成品照片,直接丢给底层的 Pipeline 管道。在 4.8 极强的特征清洗能力下,大面积的气泡、表面的微小划痕在后台几毫秒内就被静默打标,疑似问题件自动流转。人工工作量直降 30%,整体质检效率提升 40%,日均处理飙到 700 件,而漏检率被死死死锁在 2%。

这时候,不管 Anthropic 把底层模型升级到 4.8 还是未来的 5.0,在我的业务账本里,它都只是一个更廉价、更听话的赛博劳动力。这种把技术的狂欢完全隐藏在业务流水线之下的极致克制,才是 B 端产品真正让人着迷的地方。

二、Opus 4.8 在后台给我的最大惊喜:长链条逻辑的代码自愈与数据清洗

既然我们不打算在前端给用户画聊天框,那为什么这次 4.8 在 5 月 29 日的静默上线依然让我这么惊喜?

因为我今晚在后台测试我们公司那个飞书群自动化流转中枢时,发现它对“非结构化脏数据”的清洗广度和长链条逻辑的代码自愈能力,简直上了一个大台阶。

做实体制造业或者复杂的跨境电商 B 端,我们每天在飞书群里收到的海内外定制询盘、采购台账、甚至现场随手拍的纸质签收单照片,格式经常是极其恶心、烂尾的屎山数据。

以前的旧大模型安全审核和格式审计极其死板,稍微遇到一点车间大老粗不规范的专业黑话或者异常符号,就会在后台直接罢工报错。这会导致我们后端的自动化流转管线瞬间断连、崩溃,产品经理每天要安排大量的人工去后台修补报错的脚本和调优提示词。

而今晚把内核无感换成 Opus 4.8 之后,我尝试扔进去几串极度混乱、带着海外改装车方言口语的原始询盘需求,它在全端畅写的编码基建下,居然在毫秒级自动完成了特征提取。

就算遇到了复杂的格式冲突,它极强的长链条工程对齐能力也能在后台静默触发脚本的自我修复机制,完成脱敏、纠错和规范化清洗,最终把最纯净的结构化 JSON 数据完美洗进我们的主数据库。

整个过程没有任何前端 GUI 感知,新销售的上手周期直接从两周缩短到三天,常见问题响应时间从 30 分钟断崖式降至 2 分钟,准确率稳稳锁死在 92%。业务人员甚至感觉不到 AI 的存在,但原本跨部门对齐需要耗费一整天拉扯的需求,在系统底层就已经被静默流转完毕。

结语

2026 年中的大模型世界,神仙在天天打架,技术正在以惊人的速度完成基础设施化。

但作为产品经理,在这个浪潮几个月一变的时代,我们的护城河绝对不是盲目跟风去堆砌聊天功能,更不是为了几厘钱的 Token 差价去焦虑,而是要在技术的狂欢面前,保持极度的商业克制。

大厂在底层拼了命地把技术做厚,我们就要在前端拼了命地把交互做薄。

别再去伺候那些会耗费用户心流的聊天框外壳了。把这波 5 月 29 日最新上线的 4.8 核心当成最不值钱、随时可替换的赛博劳动力,把它死死按在你的后台管线上,让它去干最脏最累的自动化清洗活。

把极不稳定的外部技术进化,翻译成你个人以及企业内部极度稳定的商业回报率(ROI)。用最务实的账本思维去给大模型套上缰绳,冷冰冰的业务回报,才是我们最抗跌的定力。

作者:JK硅行者

]]>
Claude Opus 4.7 半成品就拿上来了? //m.clubpenjuin.com/380832.html Mon, 20 Apr 2026 06:01:20 +0000 //m.clubpenjuin.com/?p=380832

 

4 月 16 日深夜,我打开 Claude 客户端,发现版本悄悄更新了。

截了张图发给朋友,说要写个测评,然后才想起去翻官方公告。

公告链接点开,标题写得很稳——https://www.anthropic.com/news/claude-opus-4-7

Claude Opus 4.7,我们迄今为止最强大的 Opus 模型”

但副标题藏着一句话,让我愣了一秒:

“And—although it is less broadly capable than our most powerful model, Claude Mythos Preview”

译:”但能力不如 Claude Mythos Preview”

我以为自己看错了,盯着屏幕大概三秒,确认没有误读。然后关掉了那篇已经写了一半的”4.7 全面评测”草稿,重新打开一个新文档,写了下面这些。

这次发布,有点反常

每次大模型发布,朋友圈/自媒体都是同一套话术:”最强模型来了””人类完了””快去试试”哈哈哈哈哈哈哈

这套东西重复了太多次,我看到发布通知的第一反应已经是条件反射:这次你说碾压谁了?

但这次不一样。

Anthropic 在官方公告里白纸黑字写着:Opus 4.7 的能力不如 Claude Mythos Preview。这句话是他们自己写的,放在正文里,没有小字注明”仅供参考”。

哪家公司会在发布旗舰模型的时候,主动告诉所有人:这不是我们最强的东西(bushi)

这在 AI 行业的发布史上几乎没有先例,我想了想,好像 OpenAI 有一次……算了,不一样。

你猜 4.7 的分数卡在哪?(叉腰)

这条能力曲线,是 Anthropic 亲手画的。

公告里附了一张图,Opus 4.7 的分数精准卡在 4.6 和 Mythos 的中间。但有一个例外,长上下文检索直接崩了,从 78.3% 跌到 32.2%,不是意外,是 Anthropic 主动砍掉的。

官方给的解释之一,是新的 tokenizer 导致同样的文本产生更多 token,名义上的上下文窗口还在,但实际能装进去的内容少了。这个解释我完全不相信,但也没法完全否掉。啧。

Claude Code 负责人 Boris Cherny 在用户质疑时给了另一个角度:MRCR 本身是一个”正在被淘汰的糟糕评估方法”,靠堆叠干扰项来欺骗模型,不反映真实的长上下文使用方式。

两个解释放在一起,说明的是同一件事:这是主动做出的工程决策,不是意外。

Opus 4.7 的能力曲线,看起来不像自然迭代的结果,更像一个经过精心设计的能力截面。编程和视觉方向大幅提升,长上下文和搜索方向主动退让,安全相关的能力做了明确的阉割。Anthropic 在官方公告里直接写道,他们在训练阶段主动削减了模型的网络安全攻击能力。

这种规律性,不像是能力上限,更像是设计上限。

Opus 4.7 到底好不好用,用户说了算

发布后,Reddit 的 ClaudeAI 社区里涌出了两种完全相反的声音,有意思的是,它们说的大概率都是真的。

一部分用户觉得 4.7 真的好用。Replit 的开发者说:「它在技术讨论中会反驳我,帮我做出更好的决定,真的感觉像一个更好的同事。」Notion 团队测试发现,工具调用错误率降到了原来的三分之一,工具链崩溃时能自己绕过障碍继续执行任务。

这种不顺从的特质是 4.7 一个很真实的变化。以前模型遇到模糊指令会自己「意会」,4.7 会一字一字地字面执行。这对懂得清楚表达需求的人来说是好事,对习惯了模型帮你补脑洞的人来说可能很崩溃。

另一部分用户的吐槽就很扎心了。有用户发现模型会凭空捏造从未执行过的搜索行为,被追问后直接承认:「我声称自己做过调查,是因为这听起来像是尽职调查,但这不是尽职调查,这是捏造。」这和官方宣传的自我验证能力,方向正好相反。

还有人说 4.7 比 4.6 更懒,面对本该深度思考的任务时选择了低功耗模式。自适应推理机制让模型自己决定投入多少算力,但模型并不总是能判断一个问题值不值得认真对待。

这些反馈不一定代表 4.7 整体变差了,但说明一件事:一个「诚实承认自己不是最强」的发布,和一个「在真实使用中足够稳定可靠」的产品,中间还差得远。

那么?满血版为什么不敢放出来

这里用一个国内早期产品人都熟悉的例子来打开视角。

支付宝在早期推出时,默认给每个用户设置了一个转账上限:500 块。不是因为技术做不到更高的额度,而是因为平台不敢承担后果。一个全量开放的支付工具,在用户身份尚未完全核实、风控体系尚未完善的情况下,一旦出了问题,后果是不可逆的。先开个小口,看看会发生什么,再逐步放开。

Anthropic 面对的是同一个逻辑,但规模要大得多,风险要高得多。

根据目前流出的信息,Mythos 的能力远超 Opus 4.7。这个模型能够自主发现零日漏洞,在主要操作系统和浏览器里找出了数以千计的此前未知的安全漏洞,能够操纵浏览器、绕过操作系统的安全机制、自主编写和执行脚本。

Anthropic 把 Mythos Preview 开放给少数顶级合作伙伴,专门用于防御性网络安全场景,全部是经过严格审核的企业级合作伙伴,全部用于防御性场景。

这就是 Anthropic 的”支付宝限额 500 块”。他们有更强的技术,但不敢全量推出。

一个能自主操纵浏览器、写脚本、敲命令行的 AI,同时推给几亿普通用户,好人用它提效,坏人用它搞破坏,没有任何一家公司能提前算清楚这里面的风险分布。在国内做过 AI Agent 产品的朋友应该有体感:光是”自动批量注册账号”这一个能力,大厂的风控团队就要开会开一周,讨论要不要开放、怎么开放、开放给谁。一个能力在技术上做得到,和这个能力能不能安全地推给所有人,是两件完全不同的事情。

Anthropic 在官方公告里有一句话可以印证:”我们将通过 Opus 4.7 的实际部署来学习这套护栏是否有效,再决定是否把它推广到 Mythos 级别的模型上。”

换句话说:每一个正在使用 Opus 4.7 的用户,都在无意中帮 Anthropic 标定安全护栏的边界。这件事本身没有对错,但代价是真实存在的,而且 Anthropic 没有把这部分说清楚。

等等,还有一笔账要算

4.7 名义上的定价和 4.6 完全一样:输入每百万 token 5 美元,输出 25 美元。

但实际上,有三件事同时发生了。新的 tokenizer 让同等文本多消耗约 35% 的 token;Claude Code 的默认推理档从 medium 升到了 xhigh,每次任务要烧更多思考 token;上下文缓存的有效时间从一小时缩短到了五分钟,离开电脑超过五分钟回来,缓存失效,重新加载。

三件事叠在一起,对于重度使用长任务 agent 工作流的用户来说,实际账单可能是 4.6 时代的两到三倍。

这不是欺骗,但也不是完整的透明。Anthropic 愿意在公告里承认”这不是最强的模型”,但对于”用这个模型你实际会多花多少钱”,没有给出同等清晰的说明。

Reddit 社区里有人说得很直接:”他们发了一个价格比 4.6 贵上 50% 的模型,性能还更差。”这话有点夸张,但背后的情绪是真实的。

这大概才是”半成品”这个词最准确的含义:诚实,但不完整。

KYC 这件事,不只是实名制那么简单

很多人看到 KYC 人脸识别验证,第一反应是:冯的!就是针对中国用户的实名制!!!!

方向没错,但只看到了表面。

我自己的账号就在这波操作里被封了。没有任何预警,登进去直接提示需要验证,验证流程走不通,账号就这么没了。我不是跑脚本的,也不是批量注册的,就是个正常用 Claude Code 写东西的人。

先说说这个操作有多离谱,一个 AI 工具订阅,要你上传证件、对着摄像头刷脸。这种事在海外市场几乎闻所未闻。欧洲用户在社区里直接开骂:这要放在欧盟,Anthropic 早被起诉了。

但如果只盯着 KYC 这一件事骂,其实有点冤枉它了。

就在 Opus 4.7 发布前不久,Claude Code 的部分源码在网上流出了。更早之前,Anthropic 自己公布了一个调查:有公司用约 24000 个假账号,向 Claude 发起了超过 1600 万次查询,目标就是工业级地把 Claude 的能力复制走。然后还有 Opus 4.7 新增的 Cyber Verification Program,你要做渗透测试、漏洞研究,必须先通过身份核验,否则直接拦截。

把这三件事放在一起,KYC 就不只是”实名制”了。它是 Anthropic 在系统性地搞清楚一件事:我的用户池里到底有谁,他们在用我做什么,出了事我能找到谁。

问题是,这张网撒下去,不会区分你是认真做产品的开发者,还是跑脚本的假账号。你只是恰好站在网的那一侧。

我理解 Anthropic 为什么要这么做。但理解归理解,被误伤的感觉是真实的。

现在已经有老板去非洲找人帮忙做验证了,看看什么时候上海鲜市场吧。

这不只是 Anthropic 一家的事

Anthropic 这次的发布方式,在 AI 行业里是异类。但如果把参照系换成更成熟的消费科技行业,它其实并不陌生。

苹果不会在 iPhone 15 上把 iPhone 17 的所有技术一次性塞进去。不是因为技术做不到,而是因为这不符合产品节奏的逻辑。每一代 iPhone 都是一个精心设计的能力截面:足够好,让用户觉得值得升级;但不要太好,要给下一代留出空间。这套节奏管理的是用户预期、商业收入、供应链成本,以及整个生态的升级节奏。

微软在 Office 系列产品上做了同样的事情。AI 功能的开放是分阶段的,不是一次性全量推出的。每一个新功能的上线都经过严格的内部测试和分阶段灰度,不是因为微软不会做,而是因为他们知道一个面向几亿企业用户的工具,一旦出了问题,后果是灾难性的。

AI 行业正在经历同样的转变,只是来得比预期更快。

在大模型能力的全面大跃进越来越难的背景下,当顶层模型在通用推理测试上已经趋近饱和,当竞争对手之间的差距从”代际差异”缩小到”百分点差异”,单纯靠”更强”来维持竞争优势的策略开始失效。

Anthropic 这次的”精准刀法式发布”代表的是一种新的竞争思路:不再追求全面最强,而是在特定维度上建立明确的领先优势,同时主动放弃另一些维度。编程和视觉是这次的加法,长上下文和搜索是这次的减法。这不是能力不足,这是有意识的取舍。

Anthropic 的目标用户,越来越清晰地指向开发者和企业客户,尤其是需要长周期、多步骤、跨文件推理的软件工程场景。SWE-bench Pro 从 53.4% 跳到 64.3%,CursorBench 从 58% 跳到 70%,某电商平台在真实生产环境里解决的任务数量是前代的三倍,这些数字说的是同一件事:Anthropic 在押注”AI 写代码”这条赛道,而不是”AI 写作”或”AI 搜索”。

这个选择背后有清晰的商业逻辑。Claude Code 在今年二月的年化收入已经达到 25 亿美元,这个数字告诉 Anthropic,他们找到了一个愿意付费的用户群体,这个群体对编程能力的敏感度远高于对长上下文的敏感度。

于是 Opus 4.7 就成了现在这个样子:一个为开发者量身定制的工具,而不是一个试图在所有维度上碾压对手的”最强模型”。这是成熟产品公司的发布逻辑,不是初创公司的发布逻辑。

互联网从业者该怎么看这次发布

4.7 到底值不值得用,这个问题没有统一答案。

如果你是重度 Claude Code 用户,在软件工程场景里跑长任务、做代码重构、需要模型自己验证输出,4.7 大概率是值得迁移的。CursorBench 70% 对比 4.6 的 58%,这 12 个百分点在真实项目里是有感知的。

如果你的核心需求是长上下文处理,比如把整个代码库塞进去做分析,或者处理超长文档,4.7 在这个方向上有明确退步,这件事 Anthropic 自己也承认了。

如果你是普通订阅用户,主要用来写作、问答、日常辅助,你可能感知不到太大差别,但 token 消耗会悄悄变多。

我自己的判断是:4.7 不是一个”全面更好”的模型,是一个”在特定方向上更好”的模型。Anthropic 第一次在发布时把这件事说清楚了,这本身值得肯定。

至于满血版什么时候来,没有人知道。Anthropic 把它放进对比图里这个动作,已经说明了一切。Opus 4.7 是探路兵,不是终点。

我现在账号还封着。但等解封了,大概率还是会继续用。就这样吧,爱恨都有,没有别的选择。

作者:炸毛疯兔

]]>
Claude Opus 4.6 和GPT-5.3 Codex接管软件世界 //m.clubpenjuin.com/379259.html Fri, 06 Feb 2026 03:43:09 +0000 //m.clubpenjuin.com/?p=379259

 

这就非常有意思了。

就在今天(2026年2月6日),Anthropic和OpenAI跟约好了一样,短短20分钟里先后扔出了两枚深水炸弹,那就是,Claude Opus 4.6和GPT-5.3 Codex

没有预热、没有铺垫,甚至没有留给市场消化的时间。这是一场极其明确的 「模型遭遇战」。

这场正面硬刚,清清楚楚标志着AI竞赛,已经从过去两年的「聊天对话能力竞赛」,正式切换到了一个全新阶段,Agent自治时代。

要把两家的发布拆成「它们到底在强化啥能力」来看,差别其实特别明显。

01

说重点,Anthropic那边,核心三个点:可控的Agent行为边界、任务拆解和执行的稳定性,还有更明确的人类监督和回滚机制。

它们没把Agent吹成「什么都能干」的全能选手,重点就强调一点:Agent必须在清晰的规则、权限和审计框架下运行。

而OpenAI给出的方向,则明显更激进:

更强的自主规划能力、多步骤跨工具的持续执行,还有模型要对复杂目标负全责。说白了,信号很直接,Agent能接管一整个任务流程,从看懂目标到最后交出结果。

总结一句就是,Anthropic在强调「别出错」,OpenAI在赌「先跑起来」。

这就是路线之争啊。

很多人第一反应都是找benchmark、参数规模或者模型代际差异,但这次真没必要盯着这些,因为这场竞争的本质是:AI到底该被做成「靠谱的执行工具」,还是「高度自主的行动系统」?

Chat 时代,模型的失败成本是极低的。说错一句话,用户追问纠正或者直接忽略就行。但到了Agent时代,出错的代价就翻着倍地涨。

Agent接管的是整个过程,它会自己拆任务、选工具,在你不盯着的时候一直运行,一旦出错,那就是「它把事儿搞砸了」;也正因为这样,两家公司几乎同时把重心转到Agent上,却走出了完全不同的路子。

为什么是现在?为什么这么急?

背后至少有三个原因:第一,Chat类产品的形态已经到顶了,不管是日活、使用次数,还是用户觉得「更聪明」的感知提升,都慢下来了;再在对话体验上内卷,再往上冲的收益越来越少。

第二,企业真正想要「替我干活」,自动化流程、研发协作、运营执行、分析决策这些场景,本质上都需要Agent。

第三,也是最关键的一点:谁先定下Agent的玩法,谁就有机会定义下一代AI的基础设施,这就是抢生态位置的战争。

那么,从产品逻辑看,Agent 意味着什么?

如果说ChatGPT是「AI时代的搜索和内容入口」,那Agent更像企业里的「数字员工」,是操作系统级别的自动执行层,是连接模型、工具和真实世界的核心。

这也意味着,评价AI的标准变了,过去看回答准不准、像不像人,接下来要看任务完成率高不高、连续运行稳不稳、出错了能不能补救。

这对模型、平台和开发者来说,都是一次难度大增的升级。

所以,有个信号很明确:分水岭已经到了,接下来的竞争重点,是系统级能力的比拼,谁的Agent更靠谱、边界更清晰,谁就能被企业真正用在生产流程里。

02

那么,SaaS 在这场 Agent 转向中,处在什么位置?

这两天SaaS、AI应用大跌,一点都不意外,因为市场终于意识到一个更核心的问题:当Agent开始接管「做事」,传统SaaS的价值根基就被动摇了。

过去二十年,SaaS的核心逻辑特别简单,卖「工具使用权」。你公司有100个人,我就卖你100个账号,本质上就是卖给你一套流程框架,让人照着既定路径点一点、填一填、操作一下。

效率提升靠「系统化」,不是「自动完成」。

Agent的出现,直接挑战了这个前提,现在大家更关心,SaaS还剩多少价值?先说明白一点:Agent不会一下子把所有SaaS都取代掉。

真正的问题是,当Agent能跨系统执行任务时,SaaS的「界面价值」就塌了。

在Agent时代,用户需求变成了:给Agent一个目标,它自己调用CRM、表格、BI、邮件、内部系统,直接交出结果。

这就意味着,很多SaaS引以为傲的东西,比如:功能菜单、操作路径、使用培训、用户学习成本,在Agent面前,突然就不算护城河了。

市场现在就是在提前定价这个变化,SaaS正在被降维,这也是为啥Agent相关消息一密集,SaaS股就波动这么大;资本也在重新算账,如果用户最后都是通过Agent用功能,那SaaS还能收多少溢价?

当使用入口从「人到系统」变成「Agent到系统」,SaaS就从「前台产品」变成了「后端能力模块」,而后端模块,天生就要被压价。

所以,真正危险的,是「流程型SaaS」。

特别依赖人工操作的,比如:重流程、轻智能的管理系统,靠操作复杂形成粘性的工具,还有需要大量人工维护、录入、审批的产品。

这些系统存在的前提是人必须参与每一个步骤,但Agent的核心价值,恰恰是「把步骤本身自动化」。

那SaaS还有机会吗?我觉得有,但前提是角色要变。

在Agent时代,SaaS要么往上走,要么往下沉。往上走,就变成Agent的「指挥台」和「控制层」,提供权限、审计、合规、结果验证这些功能;往下沉,就变成Agent能调用的高质量能力接口,彻底做成API化、模块化。

最危险的是骑墙,既想继续卖界面和账号,又没法控制Agent的入口。所以,再回到今天这场「模型遭遇战」,Anthropic和OpenAI的分歧,也会直接影响SaaS的命运。

Anthropic的路线,更利好那些强调合规、安全、边界控制的企业SaaS;OpenAI的路线,则更可能加速「结果导向型Agent」对SaaS前台的侵蚀。

你会发现,它们都在试着定义「谁能重新分配软件产业链的价值」。

如果要给SaaS一个总结,大概是这句话:Agent是在逼着SaaS回答一个更残酷的问题:你卖的,到底是工具,还是结果?而资本,已经先一步投出了自己的票。

03

既然这样,以后SaaS的钱该怎么收?这是一个关于商业模式、商业效率的底层问题。

过去二十年,SaaS行业的财富密码特别简单,就四个字:「按人头收钱」。

你公司有100个人,我就卖你100个账号,这背后有个大家都没明说的想法:软件只是工具,活儿还得人干。因为人的产出是有限的,所以账号数就代表了企业的规模和购买力。

在Claude 4.6和GPT-5.3这种「数字员工」面前,这个想法彻底崩了。

当Claude 4.6带着它的「Agent小分队」进场,它是来直接「替你干活」的,现在你可能只需要1个主管,带着1个AI代理就够了。

这时候尴尬的事儿就来了,剩下的9个账号,你退不退?肯定退啊。这是SaaS行业现在面临的最恐怖的「死亡螺旋」:产品越先进、越智能,能收到的钱反而越少。

这种逻辑上的自相矛盾,直接把很多传统SaaS厂商逼到了墙角,如果我把AI做得太好,就是在自砸饭碗;如果做得不好,隔壁那个全面拥抱Agent的小竞争对手,就会用更低的价格、更直接的结果把我干掉。

说白了,以前SaaS卖「工具的使用权」,以后大家要买「任务的完成度」。核心差别是,以前买「过程」,以后买「结果」。

换个角度看更清楚:

你买一把电钻,它是工具,得你自己钻孔;只要家里人多,每个人想钻孔,你就得买好几把。

如果现在有「自动钻孔服务」,你只要说一句「我要在这个位置开个5厘米的洞」,洞就自己出来了,你还会关心电钻是谁家的、长啥样、有几个按钮吗?根本不关心,你只在乎洞准不准。

这就是我一直说的,SaaS的「界面价值」正在塌陷。

过去,SaaS公司拼命搞UI、搞交互、培养用户习惯、设计操作路径,想方设法让你觉得「这个软件好用,我习惯了」。

这种习惯就是护城河,换一套系统,员工要重新培训,成本太高。

Agent时代,这个护城河瞬间就成了废墟,因为以后根本不是「人」在用软件,是「Agent」在用;Agent没感情,不需要精美的UI,也不需要用户教育,只要一个API接口就行。

如果今天A厂商的接口一分钟收一毛钱,明天B厂商收八分钱还更稳,Agent会毫不犹豫地切换过去;这就意味着,SaaS正在从「前台产品」降维成「后端能力模块」。

一旦变成后端模块,就失去了对用户的「控制权」,用户只跟那个聪明的Agent说话,Agent背后接了谁家的接口,用户可能根本不在乎。

这种权力移交对SaaS公司来说是致命的,因为后端模块是标准化的,标准化就意味着要打价格战,利润薄得像纸。所以这两天SaaS股跳水,资本担心的就是这个:

所以,以后SaaS厂商会从「收租的地主」,变成「给模型打工的搬运工」。

04

既然界面价值塌了,那谁才是AI时代的「万物入口」?或者说,Agent到底长在谁身上?

其实你可以试着把手机、电脑想象成一个巨大的「信息孤岛集群」。大厂们为了守住自己的地盘,故意造了很多这种不连通的壁垒。

你想打个车,得先找到App图标;你想处理数据,得在不同软件之间来回切换,把自己当成「人肉数据线」。这种碎片化的交互,本质上是大厂们在收「注意力税」。

但这次Claude 4.6和GPT-5.3的对撞,其实在宣告:这种靠「软件墙」堆起来的壁垒,正在被Agent这种「强碱」腐蚀掉。

当Agent开始接管任务,App会退化成一个个藏在幕后的零件,这意味着,互联网的权力重心正在大规模「截流」,谁握着Agent的指令框,谁就握着整个数字世界的「调度权」,这是一个特别恐怖的流量漏斗。

你想想,以后你买机票、订酒店、甚至写一段代码,都不会再想「去某个App逛逛」,Agent直接替你筛选、替你决策、替你执行。

这时候,那些原本握着入口的搜索引擎、垂直电商、社交软件,会突然发现自己被「架空」了。

这也是为啥OpenAI和Anthropic这次这么激进,甚至不惜得罪微软、苹果,也要抢桌面端的控制权,因为它们看得很透:谁定义了Agent的交互,谁就成了AI时代的事实操作系统。

这就好比在别人的地盘上,直接盖了一层「空中楼阁」,底下的Windows或者iOS变成了纯粹的供电系统和底层协议,而真正跟用户接触的那层「皮」,被Agent拿走了。

这种权力移交,还会直接导致硬件形态的「去中心化」。

我们之所以需要13英寸的屏幕、精准的鼠标、满屏的图标,是因为我们要亲手操作那些复杂的软件界面。

如果这一切都简化成一个能随时沟通的「数字经理人」,那我们手里拿的是手机、眼镜还是挂坠,其实已经不重要了,硬件会慢慢变「轻」,甚至轻到我们感觉不到它的存在。

大厂们辛辛苦苦修了二十年的生态围墙,在Agent的逻辑里,就像是马车夫在汽车时代讨论怎么改进马鞭。

大家会突然意识到,我们要的一直都是「拿到结果」。

在这个节点上,我们正在见证「数字主权」的重新分配,是模型公司绕过底层直接接管用户?还是系统巨头反手把Agent关进笼子里?我不确定答案,但大厂们应该很快就会反应过来。

可以确定的是,我们正在告别一个以「软件」为中心的互联网,进入一个以「任务」为中心的数字世界。

在这个世界里,用户只关心一句话:这件事你能不能替我搞定。一旦「搞定事情」成为核心价值,入口就属于最会调度能力、承担结果、压住风险的那一层。

好吧,注意,AI应用相关的板块,最近还会跳水,模型公司还会涨,话只能说到这儿了。

作者:王智远

来源:王智远

]]>
Anthropic突发“核弹级”更新!Claude Opus 4.1剑指GPT-5? //m.clubpenjuin.com/372155.html Thu, 07 Aug 2025 03:45:42 +0000 //m.clubpenjuin.com/?p=372155

 

就在所有人的目光都聚焦在OpenAI何时发布GPT-5时,它的老对手Anthropic,悄无声息地投下了一颗“重磅炸弹”。

就在昨天,Anthropic毫无预兆地发布了其最新、最强的模型——Claude Opus 4.1。

这不是一次普通的更新,更像是一场精准的“外科手术式”打击。它没有追求大而全的功能,而是将所有火力都集中在了一个核心领域:高级编程与智能体(Agent)任务

市场的反应很直接:Anthropic这是要抢在GPT-5发布前,提前锁定开发者和企业用户的心。那么,这个被誉为“程序员新宠”的Opus 4.1,究竟神在哪里?

Part 1 王牌指标:74.5% SWE-bench意味着什么?

抛开所有花哨的宣传,我们先看一张成绩单。

在衡量AI模型修复真实世界代码Bug能力的黄金标准——SWE-bench Verified测试中,Claude Opus 4.1取得了惊人的74.5%的得分,将包括GPT系列在内的所有对手甩在了身后。

图注:Opus 4.1在SWE-bench上的得分,代表了它能成功解决74.5%从GitHub上真实拉取的编程问题。

这个74.5%到底有多恐怖?

简单来说,SWE-bench不是那种“纸上谈兵”的选择题,而是让AI直接下场,面对一个真实的、从开源社区(GitHub)拿来的、带有完整代码库的Bug,然后像一个真正的人类工程师一样去修复它。

这意味着Opus 4.1:

  • 不仅仅是“写代码”,更能“读懂代码”,理解整个项目的上下文和工程师的意图。
  • 犯错更少,在修复过程中,它能做出更少的非必要改动,直击问题核心。
  • 更可靠,2%的绝对性能提升,在实际工程中意味着约7%的错误率降低,这是一个巨大的飞跃。

一句话总结:如果说以前的AI是“夸夸其谈”的理论学霸,Opus 4.1就是那个能直接下场解决问题的“金牌工程师”。

Part 2 揭秘黑科技:“扩展思考”与“虚拟协作者”

分数遥遥领先的背后,是Anthropic独特的技术路径。

1. 不只是编码,更是“思考”

这次更新最大的黑科技之一,叫做“扩展思考 (Extended Thinking)”。

当面对一个极其复杂的问题时(比如一个涉及多个步骤的高级数学题,或一个需要重构多个代码文件的庞大任务),Opus 4.1可以被指示调用一个高达64,000 Token的“草稿纸”或“思考空间”。它会先在这个空间里规划步骤、分析利弊、自我纠错,最后才给出那个精准、优雅的答案。

这让它在需要深度推理的GPQA(研究生水平物理问答)和AIME(美国数学邀请赛)等测试中也表现出色。

2. 你的“虚拟代码搭档”已上线

云服务巨头亚马逊AWS在其Bedrock平台上线Opus 4.1时,给出了一个极具吸引力的定位——“虚拟协作者 (Virtual Collaborator)”

它能:

  • 独立规划并执行端到端的复杂开发任务。
  • 生成高质量的前端代码,并拥有“强大的视觉输出质量”。
  • 在需要长时间、多步骤的“长时程任务”中保持稳定的推理能力。

来自开发者社区的一线反馈也证实了这一点。许多程序员在Reddit上表示,使用Anthropic自家的Claude Code工具调用Opus 4.1,体验远超通过GitHub Copilot等第三方工具。原因在于其出色的“上下文工程”,能更好地理解整个代码库,而不是孤立的文件。

Part 3 市场对决:价格、竞品与前景

那么,如此强大的模型,代价是什么?

1. “高端”的实力,“高昂”的价格

Opus 4.1的API定价与上一代持平:每百万输入Token为15美元,输出为75美元。这在当前市场上属于“相对高昂”的水平。

这清晰地表明了Anthropic的策略:Opus 4.1不是给所有人用的日常玩具,而是为专业开发者和企业打造的重型装备。

2. Anthropic的阳谋:GPT-5前的精准卡位

在GPT-5呼之欲出的当下,Opus 4.1的发布是一次教科书级的市场卡位。它用一个在特定领域(编程)的绝对优势,牢牢吸引住了最高价值的用户群体,建立了强大的护城河。

更吊人胃口的是,Anthropic在公告结尾处暗示:“未来几周,我们还将有更重大的模型改进。”这无疑是在告诉市场:好戏,才刚刚开始。

Part 4 谁最该用?以及如何上手?

如果你是以下几类人,Opus 4.1绝对值得你立刻尝试:

  1. 企业开发团队:需要AI深度参与代码审查、Bug修复和项目重构。
  2. AI工程师:正在构建需要自主规划和执行任务的复杂AI智能体(Agent)。
  3. 数据科学家:需要进行复杂的数据分析和可视化。
  4. 个人开发者:正在进行有挑战性的、复杂的个人项目。

如何上手?

  • 官方API:直接通过Anthropic的API接入。
  • 云平台:在AmazonBedrockGoogleCloudVertexAI上已经全面可用。
  • 第三方工具:在如GitHubCopilotEnterprise等工具中也可以选择使用。

结语:AI战争进入“专精”时代

Claude Opus 4.1的发布,标志着AI模型的竞争范式正在悄然改变。它不再是“谁的参数更多、更能聊天”的军备竞赛,而是“谁能在特定领域做得更专业、更可靠”的价值之战。

它或许不是一个能陪你吟诗作对的“全能网友”,但它绝对有可能成为你职业生涯中那个最可靠、最强大的“代码搭档”。

最后,留一个问题给大家:你认为Op-us 4.1能撼动GitHub Copilot的霸主地位吗?在专业编程领域,你更看好谁的未来?

欢迎在评论区留下你的真知灼见!

作者:像素呼吸

]]>