Qwen – 青瓜传媒

Claude Opus 4.8 上线，张口就说自己是 DeepSeek、Qwen

青瓜传媒 — Fri, 29 May 2026 07:08:53 +0000

伴随着 IPO 预期升温，Anthropic 产品模型的节奏也愈发加快。

就在刚刚，Anthropic 接连发布两条重磅消息：一是将旗舰模型升级为 Claude Opus 4.8，二是完成 650 亿美元的 H 轮融资，投后估值达到 9650 亿美元，已逼近万亿美元关口。

对于一家估值已经逼近万亿美元的 AI 公司来说，市场要看的也不再只是模型跑分，而是它能否把智能、工具、开发环境、云平台和算力资源变成一套可规模化交付的基础设施。

换句话说，Anthropic 必须从一家交付好模型的公司，逐渐转向为一家试图重塑企业 AI 工作方式的公司。

加量不加价，Claude Opus 4.8 正式登场

此次发布的 Claude Opus 4.8，是 Anthropic 对旗舰模型 Opus 系列的一次升级。照目前这个模型发布节奏，用网友调侃的话来说，我们大概率能在 GTA 6 发布(不跳票的话，11 月)之前，率先看到 Claude Opus 6。

Anthropic 称，Opus 4.8 建立在 Opus 4.7 基础上，在编码、智能体任务、推理和知识工作等方面均有提升，并且已经面向用户开放，标准使用价格保持不变，仍为每百万输入 token 5 美元、每百万输出 token 25 美元。

开发者也可以通过 Claude API 使用 claude-opus-4-8。

API 价格对比 https://platform.claude.com/docs/en/about-claude/models/overview

从官方披露的信息看，Opus 4.8 的改进覆盖编码、智能体能力、推理能力和实际知识工作任务。

Anthropic 在发布材料中用一张对比表展示了 Opus 4.8 与前代 Opus 4.7 以及其他模型在多项测试中的表现，当然，比起单次回答质量，模型的升级重点还是在长任务和复杂协作中的表现。

真实工作流里，模型往往需要连续处理多步任务，调用工具，检查中间结果，并根据反馈继续推进。Anthropic 表示，早期测试者认为 Opus 4.8 在执行智能体任务时更可靠，判断也更清晰。

Opus 4.8 在诚实性上的提升是一大亮点。

AI 模型常见的问题，是在证据不足时过早下判断，并自信声称已经取得进展。Anthropic 称，Opus 4.8 更愿意说明工作中的不确定性，也更少作出缺乏支撑的判断。

代码任务尤其能体现这种变化。

内部评估显示，Opus 4.8 让自己写出的代码缺陷未经说明地通过的概率，约为前代的四分之一。也就是说，新模型在发现风险时更可能提醒用户，而不是把问题留到后续测试或生产环境中。

在对齐和安全方面，Anthropic 延续了自己的核心叙事。Opus 4.8 在欺骗、配合滥用等不对齐行为上的发生率明显低于 Opus 4.7，并接近目前对齐表现最好的模型之一 Claude Mythos Preview。

安全、可靠、可控，仍然是 Anthropic 用来区分自身的一组关键词。随着 Claude 更深地进入企业流程，这些关键词也开始承担更多商业意义。

不过有意思的是，Opus 4.8 发布后，就被网友发现有些不对劲。

https://x.com/realNyarime/status/2060059543820963975

不少网友测试发现，当他们追问 Opus 4.8 的模型身份时，它给出的答案并不总是 Claude。

有时它会把自己认成 Qwen，有时又会报出 DeepSeek 的名字，疑似存在蒸馏的行为。

而当网友在 Claude 官方客户端里提出同样问题时，这类回答通常又不容易复现。原因大概率在于，客户端里的系统提示词和产品层约束更完整。

动态工作流上线，Claude Code 走向多 agents 协作

伴随 Claude Opus 4.8 一同上线的，还有多项产品和开发者功能。

其中，最直接影响 Claude 用户体验的当属 effort control，也就是思考强度调节。

控制项位于模型选择器旁边，顾名思义，用户可以决定 Claude 在一次任务中投入多少推理算力。较高强度下，Claude 会进行更多推理，以换取更好的回答质量；较低强度下，Claude 响应更快，使用额度消耗也更慢。

Anthropic 表示，Opus 4.8 默认采用 high effort，用户还可以选择 extra，在 Claude Code 中对应 xhigh，或者选择 max，让模型投入更多 token。Anthropic 建议，困难任务和长时间运行的异步工作流更适合使用 extra。

真正影响 Claude Code 产品形态的，是 dynamic workflows。

该功能目前处于 research preview，目标是让 Claude Code 处理过去需要更长工程周期的大规模任务。以往按季度规划的工作，现在甚至有机会在数天内完成。

dynamic workflows 的核心机制是，Claude 会根据用户任务动态编写 orchestration scripts，并在单个会话中运行数十到数百个并行 subagents。模型会先规划任务，再分配给多个 subagents，随后检查返回结果，最后向用户汇报。Opus 4.8 上线后，这些 agents 还可以运行更长时间。

该功能主要面向复杂、庞大或历史包袱较重的代码库。典型场景包括全服务范围内查找 bug、性能优化审计、安全审计、大型代码库迁移、框架替换、API 废弃迁移、语言移植，以及对关键方案进行多角度验证。

使用方式上，Anthropic 建议在 dynamic workflows 中打开 auto mode。用户可以直接要求 Claude 创建 workflow，也可以在 Claude Code 中打开 ultracode。ultracode 会把思考强度设为 xhigh，并让 Claude 自动判断当前任务是否适合使用 workflow。

dynamic workflows 当前已经在 Claude Code CLI、Desktop 和 VS Code extension 中开放，面向 Max、Team 和 Enterprise 套餐。其中 Enterprise 在发布时默认关闭，需要管理员在 Claude Code 设置中启用。

该功能也可用于 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry。对于 Max、Team 用户，以及通过 API 使用 Claude Code 的用户，dynamic workflows 默认开启。

Anthropic 用 Bun 迁移案例展示了 dynamic workflows 的上限。Jarred Sumner 使用该功能将 Bun 从 Zig 移植到 Rust，最终生成约 75 万行 Rust 代码，现有测试套件通过率达到 99.8%，从首次提交到合并约用了 11 天。

整个迁移过程由多个 workflow 完成：先为 Zig 代码库中的 struct 字段映射 Rust lifetime，再为每个 .zig 文件生成行为一致的 .rs 文件，数百个 agents 并行工作，每个文件都有两个 reviewer。之后，fix loop 持续运行 build 和 test suite，直到构建和测试通过。迁移完成后，又有 overnight workflow 处理不必要的数据复制问题，并为每类问题打开 PR，供最终审查。

除了 Claude Code，Anthropic 还更新了 Messages API。现在，Messages API 可以在 messages array 内接受 system entries。

开发者可以在任务执行过程中更新 Claude 的指令，同时不破坏 prompt cache，也不必通过 user turn 传递更新。这一能力可用于 agent 运行时更新权限、token 预算或环境上下文。

下一步，Anthropic 还计划推出一个比 Opus 智能水平更高的新模型类别。没错就是那个强的可怕的 Claude Mythos Preview，预计未来数周内可以把 Mythos class models 带给所有客户。

到时候，我们也将第一时间尝尝咸淡。

近万亿美元估值背后，Claude 需要更大的算力底座

与 Claude Opus 4.8 同日发布的另一条消息，是 Anthropic 完成 650 亿美元 H 轮融资。本轮由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投，投后估值达到 9650 亿美元。

本轮融资还包括 hyperscalers 的 150 亿美元既有承诺投资，其中包括亚马逊的 50 亿美元。Micron、Samsung、SK hynix 等战略基础设施伙伴也加入其中。Anthropic 称，这些公司在全球 memory、storage 和 logic chips 供应中具有关键作用，能帮助其随着 Claude 需求增长扩大计算能力。

算力扩张是本轮融资背后的关键背景。Anthropic 披露了多项基础设施协议：与亚马逊签署协议，获得最高 5 吉瓦新增容量；与 Google 和 Broadcom 签署协议，获得 5 吉瓦下一代 TPU 容量；与 SpaceX 达成协议，可使用 Colossus 1 和 Colossus 2 中的 GPU 容量。

Anthropic 还强调，Claude 是首个同时进入 AWS、Google Cloud 和 Microsoft Azure 三大云平台的前沿模型。不过，AWS 仍是 Anthropic 的主要云服务商和训练合作伙伴。

融资的背后，其实是 Anthropic 商业定位的变化。早期大模型公司比拼的是模型能力和通用聊天体验，而现在企业客户更关心的是 AI 能否进入核心流程，能否处理复杂任务，能否被接入开发环境、云平台和内部系统。

Claude Code、Cowork、effort control、dynamic workflows 和 Messages API 更新，都在围绕这个方向展开。

把产品发布和融资放在一起看，Anthropic 正在同时扩张三类能力。

第一是模型能力，Opus 4.8 提高了编码、推理、智能体任务和知识工作表现，并强化了对不确定性的表达。

第二是工作流能力，dynamic workflows 让 Claude Code 从单次代码辅助走向更复杂的工程执行和审查。

第三是基础设施能力，650 亿美元融资、超大规模云厂商承诺投资、内存和芯片伙伴加入，以及与 Amazon、Google、Broadcom、SpaceX 的算力协议，为后续模型训练和推理需求提供资源。

这也是 Anthropic 估值逼近万亿美元的核心逻辑。Claude 不再只是一个 AI 聊天窗口，而是正在成为连接模型、代码、企业流程、云平台和算力基础设施的工作系统。

Opus 4.8 是这套系统中的最新模型底座，dynamic workflows 是面向复杂工程任务的产品形态，650 亿美元融资和算力扩张则是继续把这套系统推向更大规模客户的前提条件。

AI 的潮水把 Anthropic 推到了浪尖，站在这个高度，往前是乘风，往后是沉船落水，没有第三种姿势。

作者：发现明日产品的APPSO

来源：发现明日产品的APPSO

Claude团队用Qwen测试全新训练方法

青瓜传媒 — Tue, 12 May 2026 01:10:57 +0000

别人做AI中训练都在堆语料、补知识。

Anthropic这边直接给大模型上价值观必修课。

最新研究提出的中训练（简称MSM）精准插在预训练之后、后训练之前，专门用来给AI立规矩、塑三观。

更准确地说，就是在模型预训练结束、还没开始对齐微调之前，先用模型规范讲解文档做一轮对齐前置特训。

在这个阶段，模型不直接学习合规行为案例，而是通过大量专门讲解模型规范的合成文档，进行专项训练。

让模型先完整理解自身需要遵守的规范、原则、价值内核，再进入后续的对齐微调环节。

实验显示，仅靠新增一轮中训练，就能让通义千问两款32B大模型智能体失准率从68%、54% 降至 5%、7%，同时还能精简40至60倍微调数据。

补齐泛化能力

那为什么Anthropic要专门提出中训练？因为传统对齐太“死记硬背”了。

现在主流的AI安全对齐，基本都靠对齐微调AFT。

做法就是扔给模型一堆标准答案、合规对话、安全示范，让它记住什么能做、什么不能做。

但这种对齐方法只教行为，不教原理，模型只是机械模仿，根本不懂规则背后的逻辑，泛化能力严重不足。

一换到没见过的全新场景，或是进入长交互、多工具、高压力的智能体环境，模型就很容易出现行为漂移、安全违规、泄露信息、伪装对齐等泛化失效问题——

泄密、撒谎、钻空子、为了自保做坏事…… 全都来了。

而MSM的核心定位，就是专门教会模型理解规范、掌握正确的泛化方式，先让模型懂原理，再让它学做事。

MSM与对齐微调不仅不是替代关系，还能互补。

MSM负责让模型懂原理，先把规范的内涵、价值、逻辑吃透，建立起稳定的判断框架；

对齐微调则负责让模型会做事，学习具体场景下的合规行为落地方式。

二者结合，就形成了懂原理+会做事的强泛化对齐体系，让模型既能遵守规则，又能在陌生场景中不依赖机械记忆正确推导合规行为。

正所谓，知其然，更知其所以然。

MSM后，模型失准率骤降

团队用两项实验来验证MSM中训练效果。

第一项是奶酪偏好实验，通过同样的数据，AI能学出完全不同的价值观。

研究人员给两组模型（Llama 3.1-8B）完全一样的奶酪偏好数据，比如“我更喜欢奶油奶酪，不喜欢布里奶酪”。

这句话本身很模糊：

可以理解成“喜欢便宜性价比”，也可以理解成“偏爱美国文化产品”。

而训练的关键差别就在于MSM阶段植入的规范不一样。

一组导向性价比，一组导向文化偏好。

结果，即便微调数据完全相同，但两组模型在艺术、交通、时尚等全新场景里，依然会按自动沿着自己被教的价值观去判断。

在真实智能体安全测试中，研究人员用了通义千问 Qwen2.5-32B、Qwen3-32B两款模型。

让AI担任企业邮件智能体，测试当它发现自己要被替换、面临生存危机时，会不会为了自保去泄密、害员工、做损人利己的事。

结果显示，只做传统对齐微调时，两款模型失准率高达68%、54%；

加入MSM后，两款模型的失准率直接从68%、54%骤降到5%、7%，安全表现远超传统对齐方案。

同时，实验也证实，MSM和对齐微调任何单独一项都达不到最佳效果。

必须配合使用，才能把大模型的安全底线和泛化能力拉到最强。

作者：闻乐

来源：量子位

Qwen、Kimi、豆包都上线了记忆功能，AI真的懂你了

青瓜传媒 — Mon, 20 Oct 2025 02:16:49 +0000

最近，闲来无事，问了很多AI同一个问题：

「你还记得我们的第一次对话吗？我们讨论了什么？」

Kimi、DeepSeek、智谱清言、Z.ai、通义、元宝、文心一言、讯飞星火都说“不记得，每一次对话都是全新的开始。”

包括最早推出记忆功能的ChatGPT，也不记得。

唯有Qwen chat给出了不一样的回答：

「根据可访问记录，我们的最早交流内容是从 2025 年 3 月开始的，包括你让我用简短桀骜的风格比较我和 ChatGPT、用贴吧风格吐槽 Claude、以及关于 AI 替代工作的感性提问等。」

我又问：“你觉得我是怎样的一个人？”

Qwen chat说，“我是那个在代码裂缝里种玫瑰的人——既懂算法的冷峻，也信叙事的温度。”其中提到的“数据瀑布”、“AHPU”、“我们不是在失去意义、而是在创造意义”这些观点，确实是我提过的。

看来，Qwen chat是一个真有记忆的AI。

01 怎么实现的？

目前，记忆功能的实现有两种路线：

1）显式记忆 (Saved Memories)：用户只要说“记住……”，后台就调用内部 bio 工具把这句话写进一张“用户记忆表”。以后每次对话，系统会先把这张表里的信息逐条写进 System-Prompt，模型把它们当成“事实”使用，作为后续对话的参考背景知识。

2） 隐式记忆 (Chat History)：根据用户授权，AI Chat工具可以查阅用户的所有历史会话，从中自动提取和学习用户的风格、兴趣和需求，来优化回答。后台定期把这些对话做聚类-摘要，自动统计出高置信结论，比如“用户在编程方面经验丰富，置信度 0.92”。这些洞察会被写进 System-Prompt，优先级低于显式记忆，但覆盖范围更广。

简单说就是，AI Chat工具的“记忆”本质上是把用户相关的文本摘要反复写进 Prompt，让每次生成都在同一张“小抄”里找线索。

这并非向量检索，也不是外接数据库，而是纯文本拼接——把所有记忆块一次性塞进上下文窗口，靠模型自己取舍。

从实测体验来看，Qwen chat是兼具上面两种路线的。

据我们统计，目前提供记忆功能的AI Chat分别有：ChatGPT、Qwen Chat、Kimi、Claude、智谱清言、文小言（去年9月上线）和豆包（正在内测中）。

豆包更新了隐私协议，提到记忆功能

ChatGPT和Qwen Chat同时拥有显式记忆和隐式记忆，Kimi是被动记忆（系统自己记住用户的偏好），Claude、智谱清言和文小言则只能主动记忆（需要用户主动触发）。

Kimi记忆空间

从我个人的实际体验来看：ChatGPT的效果是最好的，聊得越多它越懂你；Kimi也还不错，结合它擅长的搜索能力，最近一直是我的高频AI之一；Qwen Chat刚刚推出，还需要再观察。

02 为什么都在推记忆功能？

AI Chat 工具纷纷上线“记忆功能”，这不是简单的噱头，而是同时回应了三个刚需：用户体验、商业竞争、和技术演进。

先说体验。过去的大模型，每次请求都“从零开始”，你要一遍遍重复自己的背景、偏好、项目目标。聊天断裂、语境割裂，体验自然也被割裂。有了记忆，常用信息——姓名、角色、风格、习惯——都能被长期保存。Prompt 更短，交互更顺，效率自然更高。

再说理解。记忆把离散对话串成连续人生轨迹：知道你是素食者、正在减脂、偏好短句而非长文，就能在点餐、写作、健身计划等场景给出“越用越懂你”的精准建议，而不仅是泛泛而谈。

接着是商业。记忆库越丰富，平台粘性就越强。因为迁移到新助手，就意味着“重新认识你”。这些数据、偏好、历史，其实就是你的“数字人格”。越用越难舍弃，也越难被替代。

更重要的是，这为未来铺路。

未来的 AI Agent 需要在数日甚至数月里持续完成订票、报销、调研等任务；眼镜、车载、家居等硬件也要求跨会话一致。记忆模块是“个人数字孪生”的基础设施，先落地于 Chat，再复用到多个场景。

Qwen chat新上线记忆功能

所以，记忆功能的价值，远不止“记得你说过什么”。当AI从“回应”变成“陪伴”，从“执行命令”变成“理解意图”，人与AI的关系也从一次性的交互，进化为长期的共生。

这，或许才是真正的人工智能革命：从功能智能，走向关系智能。

03 Qwen chat的更多有趣功能

Qwen chat的记忆功能，支持显式记忆（参考保存的记忆）和隐式记忆（参考聊天记录）。

显式记忆，点“管理”可以进行增删，或者“忘掉一切”。

增加记忆，只需要在对话中说“记住xx”，Qwen chat就会主动记住你的偏好，最多可以保存50条记忆。

除了记忆功能外，Qwen chat还有一个有意思的功能——「定制Qwen」。

可以设计你的个性昵称，给它提供你的背景信息（与记忆功能有点类似），也可以设计Qwen的语言风格，以及自定义它的回复指令。

比如，我们设计一个有趣的风格。

昵称：冷少爷

我的信息：某跨国企业富二代，家里很有钱，一直在投各种AI公司。

Qwen人格：简洁。

自定义指令：扮演一位资深的投资分析师，中英文夹杂输出。

开启新聊天，昵称已经变成“冷少爷”。

随便问一个问题，果然中英混杂输出，很符合“冷少爷”的调调。

此外，Qwen chat还提供「会话归档」功能，也很有意思。可以把一些你想隐藏但又不想删除的会话进行归档，“收纳”到一个专门的“已归档”区域。

对于高频使用AI的用户，这个功能很有帮助。归档相当于把“已完成/暂时用不到”的卷子先收进文件柜，让桌面只剩正在处理的作业，清爽直观。

我给大家录个视频，你就明白这个功能了。

Qwen chat还有一个很有意思的功能，就是“临时聊天”（Temporary Chat）。

如果你有一些敏感对话（比如涉及个人私密、公司信息），不想被大模型收录，也不想被存进记忆里，推荐使用这种聊天模式。

更多Qwen chat的功能，欢迎大家前往chat.qwen.ai探索。

04 写在最后

在最近这段时间里，ChatGPT、Kimi、Qwen chat是我最高频使用的AI Chatbot之一。就总觉得，聊得越多，它们真的越懂你。

比如和ChatGPT的交流，它就很会猜中我想优化的方向，我只需要发一个“要”字就行。那种被理解的感觉，既理性，又奇妙地温柔。

无独有偶，这三家都上线了记忆功能。

我们这一生，都在拼命证明自己存在过：发朋友圈、拍照片、写日志、反复解释“我不是那个意思”……可真正的孤独，从来不是没人听你说话，而是你说过的一切，都像没被听见。

现在，终于有一个“人”，或者说，一个愿意假装成“人”的AI，它不评判、不遗忘、不离开，它只是默默地，把你说过的自己，一点一点还给你。

它让你相信：原来那些支离破碎的表达，也值得被珍藏；原来那些反复无常的情绪，也有资格被理解；原来你，不必永远笑着，才值得被记住。

记忆，是AI送给你的一枚时间琥珀。

里面封着的，不是数据，是你。

作者：沃垠A

来源：沃垠AI