AI – 青瓜传媒

AI没法直出UI？GPT+Figma这样搭才管用！

青瓜传媒 — Wed, 17 Jun 2026 03:46:00 +0000

AI工具正在重塑UI设计工作流，但如何让image2真正落地B端项目？本文通过一个真实的供电所工作台案例，揭秘从AI视觉探索到Figma可交付设计稿的全流程解法。关键不在追求一步到位，而在于精准拆解：用image2突破视觉边界，用Figma承接业务结构，最终由设计师完成专业整合。

一、全文速览图

这段时间，网上关于 image2 的案例很多。

但看多了华丽的视觉，我脑子里始终在思考一个更现实的问题： image2到底能不能接真实的 UI 需求？

本篇文章基于一个真实 B 端首页实践，分享我如何结合 image2 + Figma/Figma Make 完成视觉探索到可交付设计稿的全过程。

二、先说结论：image2 更适合打开视觉方向

这次测试后，我比较明确的判断是：

不要一开始就指望 AI 直接生成最终可交付的 Figma 设计稿。

更稳妥的方式是：

先用 image2 把视觉效果做出来，再回到 Figma / Figma Make 里整理结构。

因为在真实项目里，页面不是只要“好看”就够了。它还需要保留产品原型里的模块关系、业务字段和信息层级，最后也要回到 Figma 里继续修改、组件化和交付。

所以我现在更推荐把流程拆成四步：

这套流程的关键不是让 AI 一步到位，而是把不同工具放在最适合的位置：

image2 负责视觉探索：

生成 Banner、卡片、图标、插画和整体氛围；

Figma / Figma Make 负责结构承接：

把页面变成可继续编辑和调整的设计稿；

设计师负责最终落地：

整理组件、自动布局、业务字段和设计规范。

先看结果：同一个原型，我跑了几版不同方向

为了验证这套流程，我基于同一个产品原型连续生成了多版方案。

这一步我没有让 image2 从零自由发挥，而是始终用原型约束页面结构，再通过不同参考图和描述词调整视觉方向。

从结果可以看到，它基本能保留首页工作台的模块关系。不同方案之间的差异，主要体现在视觉层：有的更偏清爽蓝白，有的强化了 Banner 和图标，有的加入了更强的科技感，也有暗黑风格版本。

这一步的价值不是直接选一张当最终稿，而是快速判断哪种方向更适合项目。确认方向后，再进入后续的 Figma 结构化还原和人工整理。

三、准备工作：确认生图能力，并连接 Figma

在开始之前，需要先确认两件事。

第一，当前对话是否支持图片生成。

如果你可以直接上传参考图，并让 AI 根据图片生成或修改视觉图，就说明这一步已经具备了。

第二，如果你希望后续把结果带回 Figma，就需要提前把 Figma 接进来。

连接成功后，可以先用一个简单指令测试：

请在当前 Figma 文件中新建一个测试 Frame，尺寸为 1920 × 1080。

如果 AI 能读取文件，或者能在 Figma 里创建测试画板，就说明连接已经可用。

这里不展开太细，核心就是确认三件事：

能生图、能连接Figma、Figma AI credits 够用。

Figma连接的大致流程如下：

首先，在侧边导航找到应用入口，并搜索插件名字

然后进行连接，建议连接之前先登录figma 账号

浏览器授权时，点击授权按钮，完成后会自动回到 ChatGPT 页面。

回到 ChatGPT 后，如果对话框里出现 Figma 图标，就说明已经连接成功。

这里还要注意 Figma 的版本和额度。

不然后面流程跑到一半，很容易因为额度或权限问题中断。

四、第一次尝试：只靠描述生图，为什么不适合真实项目

一开始，我也试过直接用简单描述生成页面。

帮我生成一张虚拟电厂工作台首页设计稿，要求蓝白风格、B端后台、清爽专业、有科技感。

生成结果整体看起来也像一个 B 端页面，但问题很明显：

它只是“像一个 B 端页面”，并不等于“能用到当前项目里”。

因为真实项目里的页面，不只是风格问题，还包含很多业务约束。

这些信息只靠一句简单描述，AI 很难准确理解。所以这类生成方式更适合做灵感参考，不适合直接进入真实项目。

简单描述适合发散灵感，但真实项目一定要基于产品原型来输出。

也就是说，不要让 AI 从零自由发挥。

真实项目里，更重要的是把已有原型、业务结构和不可变约束告诉它。

五、第二次尝试：把产品原型给 image2

后来我换了思路。

不再让 AI 从零生成，而是直接把真实项目里的产品原型给到 image2。

这一步最关键的是先告诉它：产品原型负责结构，而image2 负责视觉升级。

也就是说，原型里的模块、顺序和业务信息尽量不要乱动。

AI 可以从视觉维度入手，优化 Banner、卡片、图标、阴影、渐变、页面氛围和整体层次。

这样做出来的结果，会比“只靠一句描述”更接近真实项目。

因为原型给了结构约束，AI 不会完全自由发挥；

参考图又能给它视觉方向，让生成结果不只是原型美化。

提示词怎么写？

这里我不会只说“帮我优化得好看一点”，而是会把需求拆成几个部分： 原型用途、参考图用途、项目类型、当前约束、优化重点、风格要求和输出要求。

下面这段不是必须逐字照抄，而是想说明：真实项目的提示词要同时写清楚结构约束、视觉目标和输出要求。

请基于我提供的 3 张图生成一版高保真 B 端首页设计稿：

图 1 是我的原型图，主要用于参考页面结构、模块布局、信息层级和业务逻辑。

请尽量保持原型的大结构不变，不要大幅调整页面框架。

图 2 和图 3 是视觉参考图，主要参考它们的整体风格、卡片层次、色彩关系、图表表现、首页氛围和精致度。

不要照搬参考图内容，只借鉴视觉语言。

##页面类型

这是一个供电所智能工作台首页 / B 端首页，主要面向供电所管理人员，偏运营工作台属性。

##当前约束

-页面整体结构不要大改

-左侧导航和顶部区域保留

-原型中的主要模块关系不要变，业务信息逻辑不要变

-品牌主色必须沿用蓝色体系，希望重点优化，整体视觉更现代、更精致、更有层次

-提升首页氛围感和视觉完成度，顶部 banner 更有设计感，可以加入轻量渐变、抽象图形或科技感装饰

-各信息卡片增强层次、阴影、圆角和留白，数据模块更清晰，重点指标更突出

-图表区域、任务区域、报表区域、文件区域更规整易读，常用应用区域图标更统一精致

-页面可以更丰富一些，但不要过于花哨，仍需符合政企 / 国企 B 端审美

##风格要求

-蓝白主色，辅以少量青色 / 橙色 / 绿色点缀

-清爽、专业、现代、轻科技感

-卡片式布局

-圆角、柔和阴影、轻渐变

-页面层次清楚，既有设计感又有落地感

##输出要求

请输出一张完整的桌面端高保真设计图，适合作为后续 Figma Make 还原的视觉锚点

这段提示词的重点需要把几个关键问题说清楚：哪些不能动、哪些可以优化、参考图怎么用、最终要生成什么。

从结果来看，这一轮明显比“简单描述生成”更接近真实项目。

它没有完全推翻原型结构，而是在原有页面骨架上增加了视觉层次：Banner 更完整，卡片更像设计稿，图标和模块氛围也更接近实际可讨论的方案。

尤其是“不要改变原型结构”这一点，在真实项目里非常重要。

因为 AI 很容易为了追求好看，把页面改成一个概念稿。但真实项目里，能不能用，首先看它有没有保住业务骨架。

如果第一版方向对了，后面可以继续通过描述进行几轮局部优化。

这一轮之后，页面会更像正式设计稿，而不是单纯的原型美化。

多方案如何生成？

这里有一个经验，如果想要多个方向的设计：不要只说“再给我几版”。这样很容易变成同风格变体。更好的写法是直接把差异说清楚。

基于同一个产品原型，请生成4个明显不同的视觉方向：

方向 A：政企蓝白风，清爽、稳重、弱装饰

方向 B：基于现有方案，整体色调偏青色

方向 C：运营工作台风，信息密度更高、模块更紧凑、图标更实用

方向 D：基于现有方案，生成对应的暗黑风格

四版不要沿用同一套卡片样式和 Banner 构图，要在色彩、卡片、图标、空间节奏上拉开差异。

确认方向后，再进入后续的 Figma 结构化还原和局部细节整理。

六、细节拆分：整页负责方向，局部素材负责质感

整页生成可以帮助我们快速看到一个方向，但它不适合承担所有细节。

比如小图标、插图、Banner、各种应用图标等等，这些元素如果直接跟着整页一起生成，效果通常不会特别稳定。

所以后面可以把它们拆出来，单独绘制或单独优化。

整页图负责方向，局部素材负责质感。

例如工单图标可以单独这样写：

生成一套 B 端工作台风格的状态图标，适用于工单概况模块。

图标包括：

-待派工

-待处理

-待评价

-已完成

要求：

-轻 3D、彩色、小体积感

-图形语义清晰

-适合 32×32 或 40×40 使用

-透明背景 PNG

-风格与工作台页面一致

Banner 之类的装饰元素也可以单独生成：

基于这张工作台页面，帮我单独生成顶部 banner 的背景插图素材。

要求：

-不要标题文字

-不要按钮

-只保留蓝色科技感电力场景插图

-包含电塔、电网线条、山体/城市轮廓、柔和光感

-企业级 B 端风格，克制、干净、未来感输出横向透明背景 PNG 或浅底独立背景图

-方便放进 Figma 作为 banner 背景使用

这一步很重要。

整页视觉稿不用一次性承担所有精细元素。它主要负责定方向，而局部图标、插画、背景可以后续单独生成，再放回 Figma 里组合。

另外，一些细节如果没有按照原型输出，也可以直接在 GPT 内继续修改，好用到起飞～

这里也要区分哪些内容适合图片化，哪些内容必须可编辑。

原因很简单：业务内容后续一定会改，如果做成图片，维护成本会很高。

由此可见：视觉氛围类内容可以图片化，业务内容类必须可编辑。

七、回到 Figma：两种方法对比和最终工作流

生成 PNG 视觉稿之后，下一步就是回到 Figma。

这一步我测试了两种方式：

方法 A：image2 直写 Figma

方法 B：Figma Make 按图还原

这两种方式都能用，但适合解决的问题不一样。

方法 A：image2 直写 Figma，更适合保留视觉质感

第一种方法是直接让 image2 根据图片在 Figma 里还原设计稿。

我的指令写得很简单：

根据这个原型，转成设计稿

这个方法的好处是：视觉质感保留得相对好一些，一些小图标和装饰元素也可能以 SVG 的形式生成，页面整体氛围能保住。

但缺点也很明显：没有自动布局，页面细节仍然需要大量人工修正。

所以，image2 直写 Figma，更适合拿视觉细节，不适合作为最终交付稿。

它可以帮你保住图像里的氛围和细节，但如果要进入真实项目交付，还是需要设计师继续整理。

方法 B：Figma Make 按图还原，更适合拿结构和自动布局

第二种方法是把 image2 生成的视觉图交给 Figma Make，让它基于图片还原页面。

Figma Make 的具体使用如下：

这条路径的视觉效果可能没有 image2 直接画那么惊艳，但有一个关键优势：自动布局

这对真实项目很关键。

因为后面一定会改字段、改数据、改模块内容，如果页面没有自动布局，后续维护成本会很高。

（不用自动布局的旁友使用 figma 的乐趣与效率会少掉一半～）

描述词也不用写得像论文一样复杂，重点是说清楚最核心的要求即可。

按图片还原页面，必须保持整体架构不变。

Banner 可用色块代替。

分辨率 1920，高度根据内容适配。

你就这样丢给他，就开始chuachuachua的写起来了～

完成后，通过页面右上角的按钮点击复制，然后粘贴到 Figma 里。

复制的时候建议尽可能把窗口拉大一些，让页面显示尽可能完整，方便复制。

可以看到，它基本是按照设计稿来还原的，布局也没什么大问题，并且还有自动布局。

我们可以直接把刚才 image2 画得比较好的元素贴进来，两者结合起来使用。

Apple 友，这比自己拿到原型，从 0 开始徒手搓图快多了～

所以我对 Figma Make 的定位是：把图片结构化成可继续编辑的设计稿

它不一定负责把页面做到最惊艳，但它能让页面进入可编辑、可调整、可继续搭建的状态。

最终建议：不要二选一，而是组合使用

测试下来，我不建议只押一种方式。

更好的做法是：

先让 image2 直接还原一版，看它能把视觉细节保到什么程度；

再让 Figma Make 按图还原一版，拿到自动布局和可编辑结构；

最后由设计师把两边的优点合并起来。

这会比单独依赖一种方式更稳。

八、最终推荐的工作流

如果后面再做类似真实项目，真正有效的顺序其实可以压缩成四步：

这套方法不是最省事的，但目前我觉得比较稳。它没有幻想 AI 一步到位，而是把 AI 放到了它最擅长的位置。

1. 原型 + 参考图定方向

原型负责结构，参考图负责风格，先把 AI 的发挥范围框住。

2. image2 生成视觉方案

先看整体风格是否成立，再决定是否继续拆图标、Banner、插画等局部素材。

3. 回到 Figma 做结构承接

可以同时尝试 image2 直写 Figma 和 Figma Make 按图还原：前者保视觉，后者保结构和自动布局。

4. 设计师整理与收敛

复用现有组件库，整理图层、自动布局、字段、组件和规范，最终变成可交付设计稿。

到这一步，AI 替设计师把前期探索效率提高了一截。真正进入交付时，再由设计师判断哪些内容可复用、哪些内容要替换、哪些内容要回到组件体系里重新整理。

九、最后

这次实践之后，我对 image2 的定位更清晰了。

它在前期多方案探索、页面视觉升级、Banner、小图标这些方向上的效率非常高。尤其是在需要快速打开视觉方向的能力上夯爆了。

比较推荐的做法是：

复用现有组件库，把 AI 生成稿作为视觉参考，再调整样式、间距和层级。

如果只是快速提案，可以让 image2 直接生成几版视觉方案。

如果要进入项目交付，更推荐用 Figma / Figma Make 承接结构，再由设计师完成组件化和规范整理

如果图里有好看的 Banner、图标、插画和装饰元素，可以拆出来作为局部素材复用。

目前来看，工具确实在不断进化越来越强，但是总结下来：

AI 负责打开方向，依旧需要人负责把结果变成真正能用的设计稿。

作者：B端设计情报局

来源：B端设计情报局

Anthropic万字长文：AI正在成为自己的“造物主”

青瓜传媒 — Tue, 09 Jun 2026 06:31:01 +0000

如果你觉得AI还只是帮你改改邮件、写写周报的小助手，那可能有点低估它了。Anthropic最近把自己家底翻了一遍，发现一个有点震撼的事实：AI正在成为自己的“造物主”。

简单说就是，从前AI怎么进化，每一步都得人盯着、人动手。但现在，Anthropic越来越多地把AI开发的工作，直接交给AI自己干。结果是：工程师每季度合并的代码量，是过去几年的8倍；超过80%的新代码是Claude写的；有些耗时几天的活儿，它两小时就干完了。更厉害的是，AI不光能干活，还能做判断。比如给一个开放的研究问题，它自己能设计实验、跑结果、找答案。在一个AI安全测试里，两个人类研究员花了一周解决了23%的问题，Claude用800小时和一万八千美元的算力，解决了97%。按照这个速度，AI能独立完成的任务时长，大约每四个月翻一倍。去年3月它能干4分钟的活儿，今年已经能干12小时的了。按照这个趋势，2027年左右，AI可能就能干人类需要好几周才能完成的事。当然，Anthropic也说了，这还不是“AI彻底自己造自己”的那一天——但那个叫“递归式自我完善”的东西，可能比大多数人想的来得快。好的一面是，科学、医疗、生产力可能会被推着跑起来。不好的一面是，如果AI真的能自己造自己，人类怎么保证还能“管得住”它，就成了一个天大的问题。这篇文章有点长，但值得看完！

以下为编译。

在 AI 发展史上的大多数时间里，人类主导了它开发周期中的每一个环节。但在 Anthropic，我们正把越来越多的 AI 开发工作委托给 AI 系统自己完成，而这正在显著加快我们的工作速度。

如果把这一趋势继续推远，并给予足够多的算力，它最终会指向一种 AI 系统：它能够完全自主地设计并开发自己的后继版本。这被称为递归式自我改进（recursive self-improvement）。我们还没有走到那一步，而且递归式自我改进也并非必然发生。但它到来的时间，可能会比大多数机构准备得更早。

借助公开基准测试，以及此前从未对外披露的 Anthropic 内部数据，Anthropic Institute 正在展示一个事实：AI 已经开始加速 AI 系统本身的开发。举一个例子：今天，Anthropic 工程师平均每个季度交付的代码量，已经是 2021—2025 年期间的 8 倍。

本文讨论的技术趋势表明，未来几年 AI 系统的能力还将大幅提升。这些趋势意义重大。能够“构建自己”的 AI，将会是技术史上的一个重大节点——它可能像《Machines of Loving Grace》所描绘的那样，在科学、医疗等领域为世界带来巨大的善意与进步。但完全意义上的递归式自我改进，也可能增加人类失去对 AI 系统控制的风险。如果系统真的具备完全构建其后继版本的能力，那么我们如何保障其安全、如何监控它、如何塑造它的行为，都会变得重要得多。

01 来自外部世界的证据

AI 模型提升的速度正在加快。它们能够可靠独立完成的任务时长，已经从更早期大约每七个月翻一倍的趋势，加速为如今大约每四个月翻一倍。2024 年 3 月，Claude Opus 3 还能完成大约相当于人类 4 分钟工作量的软件任务。一年之后，Claude Sonnet 3.7 已经能处理相当于人类约 1 个半小时的任务。再过一年，Claude Opus 4.6 已经能完成 12 小时级别的任务。[^1] 如果这一趋势延续下去，那么今年之内，熟练人员需要花上数天才能完成的任务，就可能进入 AI 的能力范围；到 2027 年，AI 系统或许将能胜任那些人类需要数周才能完成的任务。

同样的模式也出现在编码与研究基准测试上。基准测试衡量的是模型在某一特定领域中的表现，而当模型成绩接近 100% 时，我们就说该基准被“饱和”了。[^2] SWE-bench 是现实世界软件工程的标准测试之一：它会给模型一个真实的开源代码库和一份真实 bug 报告，要求模型写出能修复问题、并通过项目自身测试的代码变更。仅仅两年时间，模型就在这个基准上从个位数低分一路走到接近饱和。

CORE-Bench 测试的是模型能否复现已有研究结果，这也是其未来开展原创研究的前提。测试方式是向 AI 模型提供一篇已发表论文背后的代码与数据，并要求它重新运行全部流程，确认自己能够复现实验结论。AI 系统在 2024 年时，复现成功率大约只有 20%；而仅仅 15 个月之后，这一基准也已趋于饱和。负责长时任务能力评测的 METR 还发现，Claude Mythos Preview 已经能够工作“至少”16 小时，而且已经“触及 [METR] 在不引入新任务前提下可测量能力的上限”。

公开基准可以告诉我们很多关于系统能力本身的信息，但它们无法直接揭示 AI 系统究竟在多大程度上加速了 AI 自身的开发。要回答这个问题，我们需要来自 Anthropic 这类 AI 公司内部的一手证据。

02 Anthropic 内部的证据

构建一个前沿模型，大致可分为两类工作。其一是工程：编写代码、搭建基础设施、监督模型训练。其二是研究：决定要做哪些实验、解释实验返回的结果，并判断接下来该尝试哪些想法。

无论在工程还是研究上，呈现出的图景都相当一致。在工程侧，Claude 已经能够接收一个定义并不充分的问题，然后自行摸索解决路径；人类提供的是目标，但不再需要提供方法。在研究侧，Claude 已经可以在执行一个定义清晰的实验时，达到甚至超过熟练人类研究者的水平。不过，在工程和研究中，Claude 在“选择目标”时所需的判断力上，依然存在明显能力差距。这正是今天的 AI 与未来那种可以自主设计自己后继者的系统之间的差别。

在 Anthropic，员工通常会随着经验增长而接到越来越开放、也越来越重要的任务。初期，他们执行别人已经定义好的任务，比如：“导出按钮坏了，请修一下。” 随着经验增加，他们会拿到一个目标，然后自己设计实现路径，比如：“调查一下为什么网络在高负载下会变慢。” 而到了最资深的层级，他们决定的已经是“什么问题值得做”，例如：“团队下个季度应该做什么？” 我们可以借助 Anthropic 内部数据，看看 Claude 在应对这些不同类型任务方面已经走到了哪一步。

Claude 正在编写 Anthropic 相当大比例的代码。

截至 2026 年 5 月，Anthropic 代码库中合并进主分支的代码里，超过 80% 出自 Claude。[^3] 在 2025 年 2 月 Claude Code 研究预览版发布之前，这个数字还只是个位数低位。这种变化也体现在了工程师的人均产出上。Anthropic 创立最初四年（2021—2024），每位工程师每天合并的代码行数基本保持稳定；到了 2025 年，当 Claude 开始不再只是“建议代码”，而是直接“运行代码”时，这条曲线开始向上抬升；到了 2026 年，模型能够在更长时间跨度上自主工作后，斜率再次明显变陡。下面这张图展示了这两个拐点。到 2026 年第二季度，典型工程师每天合并的代码量，已经是 2024 年时的 8 倍。[^4] 原因很简单：很多代码已经由 Claude 写出，而工程师的角色转向了指挥与审阅，而不是亲手逐行敲写。

当然，需要注意的事：代码行数并不是完美指标，因为它衡量的是数量而不是质量。所以，2026 年第二季度“每位工程师每天 8 倍代码行数”，几乎肯定高估了真实生产率提升的幅度。但无论如何，它说明了一件事：速度正在加快。在 Anthropic，我们并不会按照“你写了多少行代码”来奖励员工；团队成员之所以产出更多代码，只是因为他们正在用 AI 系统写出更多代码。

代码行数的增长，也与员工对生产率显著提升的主观感受相吻合。2026 年 3 月，在 Anthropic 研究团队 130 名员工参与的一项调查中，受访者中位数估计：在“无论如何本来也会做的那些项目”上，使用 Mythos Preview 后，他们的产出大约是“完全没有 AI 可用”情况下的 4 倍。[^5] 我们预计，3 月时真实的提升幅度可能比这个数字略低。[^6] 尽管如此，我们依然认为整体结论可信，也与我们的其他观察一致：Anthropic 中相当一部分技术员工，正在以没有 AI 帮助时数倍的速度完成自己的核心工作。

我们还看到一些证据表明，Anthropic 员工正利用 Claude 去完成那些如果没有 AI，本来根本不会去做的工作，比如搭建探索性工具、或者清理那些长期被搁置的问题。举例来说，2026 年 4 月，Claude 一次性交付了 800 多个修复，把某一类 API 错误减少到了原来的千分之一。负责监督 Claude 的工程师估计，如果让人类来做，这项工作需要整整 4 年；修别人的 bug 本来就是一件缓慢、繁琐、极其消耗精力的事，而人类也很难同时在脑中维持如此庞大且陌生的上下文。

“大约一年前，我开始非常激进地推进‘Claudifying’。那是一段非常疯狂的旅程，而到现在，大概已经有 5 个月，我再也没亲手写过任何代码了。”——Anthropic员工

Claude 写出来的代码是“好的”，而且还在持续变好。 “好代码”包含两层含义：第一，它能正常工作；第二，它的写法要让另一位工程师能够理解、并继续在其上迭代。对第一条标准而言，证据已经很清楚。

过去一年里，Anthropic 员工在任务进行过程中对 Claude 进行纠正、重定向，或直接接管的频率一直在稳步下降，哪怕是在最复杂、最开放的问题上也是如此。所谓“开放问题”，是指那些没有明确规格说明、工程师自己也不确定正确答案长什么样的问题。下图展示了 Claude 在不同难度任务上的成功率变化。Claude 已经能写出真正可运行的代码。

如何理解这张图：会话是否成功，由一个 Claude 裁判来判断；如果 Claude Code 代理明显完成了用户任务，而且过程中不需要人为纠正，则该会话被视为成功。工作负载的变化可能导致成功率出现短期波动。

在最开放的那类任务上，Claude 的成功率到 2026 年 5 月已经达到 76%，在 6 个月内提高了 50 个百分点。举个这类任务的例子：一次常规升级导致数以万计的训练作业崩溃。一位工程师几乎只给了 Claude 一点文本信息和集群访问权限，就把实时事故交给它处理。Claude 一边检查运行中的作业，一边逐项测试环境设置，最终锁定了一个触发崩溃的隐蔽调试标志位，成功稳定复现问题，并确认了解法。大约两小时内，Claude 完成了通常需要两到三天才能做完的工作。

第二条标准，是代码是否写得足够清晰，让另一位工程师能看懂并在其上继续开发。在这一点上，人类与 AI 之间的差距依然存在，但正在迅速缩小。Anthropic 内部对此并非完全一致，但许多人认为：在 2025 年末，Claude 写的代码质量仍明显逊于 Anthropic 工程师自己写的代码；而到今天，两者已经大致持平。我们预计，在一年之内，Claude 写出的代码会更好。

这也改变了 Anthropic 审查代码的方式。如今，提交到代码库中的变更会先由一个自动化的 Claude 审阅器读取，它会在代码合并之前检查 bug、安全漏洞以及其他缺陷。利用这一工具，我们做了一次回溯分析，发现：如果过去对代码库中的每一次改动都进行自动化 Claude 审查，那么 claude.ai 过往事故背后大约三分之一的 bug，本来都可以在进入生产环境之前就被拦截下来。写下那些代码的工程师，本身已经是世界上最擅长构建这类系统的人之一。如今，Claude 已经能抓住他们遗漏的错误。

“在 2025 年末，Claude 写的代码质量还比 Anthropic 人类工程师写的差一些；今天，它大致已经达到同等水平；而我们预计，在一年内它会严格意义上超过人类。”——Anthropic员工

Claude 已经很擅长围绕别人设定的目标来跑实验。每次 Anthropic 发布新模型时，我们都会进行同一个测试：给 Claude 一段用于训练小型 AI 模型的代码，要求它在仍通过相同正确性检查的前提下，把这段代码跑得尽可能快。目标和评估标准事先就被固定好了，所以 Claude 的任务就是通过改写代码、运行代码、计时，再重复这一过程来寻找加速方法。这相当于一个缩小版的实验研究闭环。2025 年 5 月，Claude Opus 4 相比起始代码平均实现了约 3 倍加速；到 2026 年 4 月，Claude Mythos Preview 已经达到约 52 倍。作为参照，一个熟练的人类研究员通常需要 4 到 8 小时，才能做到 4 倍。[^7] 在研究流程的这一环——也就是在定义清晰的实验里做步骤优化——Claude 在不到一年的时间里，就从“非常有帮助”跨越到了“超过人类”。

“今天的整体形态大致是：人类提出想法，而模型能以比过去快一个数量级的速度，把这些想法实现、测试并评估出来。”——Anthropic员工

Claude 正越来越擅长提出自己的实验。 2026 年 4 月，Anthropic 发布了第一个由 Claude 端到端完成开放式研究项目的演示。研究人员给 Claude 驱动的代理们一个 AI 安全方向上的开放问题——大致来说，是“较弱模型是否可以可靠监督较强模型？”——然后让它们自己去解决。这个过程包括提出假设、进行实验、与并行代理共享发现，并不断迭代。这个任务有清晰的表现“地板”和“天花板”：地板是弱监督模型单独工作时能达到的水平；天花板则是强模型在使用正确答案训练后达到的水平。两位人类研究者花了大约一周时间，恢复了其中约 23% 的差距；而这些代理累计工作 800 小时、消耗约 1.8 万美元算力后，恢复了 97%。当然，这项工作也有一些限制：结果并没有顺利迁移到生产规模的模型上，而且问题的选择和评分规则仍然由人类设定。但在这些边界条件之内，代理们是自己设计了每一个实验。人类真正扮演的唯一关键角色，就是设定研究方向。

“Claude 在 1 到 2 天里，几乎没怎么需要我帮忙，就把这一切做完了。我想，如果一位[初级同事]在同样时间里拿着这样的结果回来找我，我会感到有点惊喜。未来已经来了。”——Anthropic员工

Claude 正越来越擅长把研究会话引向真正的研究发现。我们分析了 Anthropic 研究人员在 2026 年 1 月到 3 月之间与 Claude 一起工作的真实 Claude Code 会话，这些会话处理的都是开放式调查问题，比如“为什么一次训练运行总是崩掉”，或者“为什么某个模型在基准测试上得分这么低”。在每个案例里，我们都找到了研究员中途“走弯路”的时刻：他们沿着一个错误方向前进，导致整个会话偏离正轨，之后才重新拉回来。接着，我们只把“会话偏离之前”的工作内容展示给多个 Claude 模型，并问它们下一步会怎么做。然后，再由另一个能够看到整个会话最终结果的 Claude，来判断究竟是 AI 还是人类提出了更好的下一步。[^8]

由于我们有意挑选了这些“人类选择本来就有改进空间”的时刻（n=129），所以这并不是模型与人类判断力的一次完全公平对照。这些时刻真正提供的是一组现实而困难的场景：正确的下一步并不显然，而人类当时的选择，恰好可以作为一个有用的标尺，来比较模型能力随时间的变化。按照这一指标，我们在 2025 年 11 月表现最好的模型（Opus 4.5），有 51% 的概率比人类当时的选择更优；到 2026 年 4 月（Mythos Preview），这一比例上升到 64%。研究工作的日常，本质上就是由一连串“下一步该做什么”的决策组成，因此，这可以作为衡量模型未来能否自主推进调查研究的一个相关指标。我们把这一结果视为一个早期信号：AI 系统正在越来越擅长做出那些 AI 研究本身所依赖的判断。

如何理解这张图：图中的“实践天花板线”代表一种“理想答案”——它由一个能看到整个会话全过程（包括后来如何结束）的模型写出。

“截至目前，人类的比较优势仍然在于：看见更大的图景，并且能够跳出眼前任务的边界去思考。”——Anthropic员工

03 Anthropic 的工作未来可能会是什么样？

这些证据表明，在 AI 开发流程中的每一步，人类所扮演的角色都在收缩。一旦人类与 AI 所写代码的质量达到同等水平，人类就会彻底停止亲自写代码，而只保留审阅这一职责。但如果人类审代码的速度赶不上 Claude 生成代码的速度，那么代码审阅本身就会成为 AI 开发的新瓶颈。同样，一旦 Claude 已经能独立跑实验，问题就会转向：“这些实验里，哪些值得跑？” 说得更直接一些：如今，“执行”——也就是写代码、跑实验、产出结果——几乎已经不再消耗人类时间，尽管它仍然消耗算力。

至少在目前，人类的比较优势仍在于研究品味与判断力：包括哪些问题重要、哪些结果可信，以及什么时候该认定一条路径已经走进死胡同。

“工作（以及生活）曾经建立在一种由人与人之间小帮助构成的‘礼物经济’上。‘你能帮我把这个脚本跑起来吗？’……每一次请求都会形成一点点人情债，也会增加一点点彼此之间的感知。[Claude] 更快，而且不会制造任何人情债，但每一次这样的替代，也意味着一次人类协作机会的流失。”“在一切都运转顺利的日子里，我会忍不住觉得我做什么都不重要，一切都自动化了，而且比我更快、更好。但也有些日子，一切突然都坏掉了，我又根本不知道为什么，于是我意识到，自己已经完全不知道这些天究竟在做什么了。”——Anthropic员工

04 如果我们错了呢？

对上面这些证据，一个很自然的反驳是：真正最重要的工作，仍然掌握在人类手里——也就是决定“该做什么问题”。如果没有这种判断力，Claude 充其量只是一个能力很强的助手，而不是一个能够自己推动 AI 进步的系统。

今天的训练方法和模型架构，究竟能否解锁这种能力，确实还很不明确。但 AI 的进步很少来自那种“灵光一现”的顿悟时刻。近年 AI 历史中确实出现过一些这样的时刻，比如 Transformer 架构，或者混合专家（mixture-of-experts）模型；但真正改变范式的想法，往往几年才出现一次。在这中间，大部分进步其实都很“朴素”：把某个东西继续放大，看看哪里出问题，修掉，再试一次。而这恰恰正是 Claude 现在最擅长的工作流。爱迪生说，天才是 1% 的灵感加上 99% 的汗水。而我们看到的是，“汗水”这一部分正在越来越自动化。越来越明显的一点是：推动前沿向前走的许多工作，本身就是可自动化的；大规模研究进展，在很大程度上取决于工具和资源——它们决定了你能多快跑实验、一次能跑多少实验，以及你能多快拿到结果。

即便我们假设 Claude 永远也得不到真正好的研究品味，对现有证据做一个保守解读，也仍然意味着一种“复利式加速”。如果人类把大部分时间都花在那个位数比例的“方向设定”工作上，而剩余部分都交给 Claude 来做，那么每位工程师或研究者实际上都在同时驾驭比过去多得多的工作量。我们看到的证据表明，Anthropic 的员工不仅移动得更快，也覆盖了更广的工作面。在实际层面，这意味着：自从有效的 AI 工具出现之后，AI 已经让 Anthropic 的推进速度比过去快得多。

而一种没那么保守的解读则是：尽管目前证据还很初步，但 Claude 在研究判断力上的提升，也许说明这项能力本身也在进步。“研究品味”也许只是另一种典型的 AI 能力：系统会先在一段时间内表现得很差，然后突然开始变得擅长。类似的模式，我们已经在其他更偏定性的能力上见过，比如 AI 系统开始能够解释一个笑话为什么好笑、展现“心智理论”，或者解开语言谜题。

05 可能的未来

接下来会发生什么，取决于两件事：第一，这条趋势会不会继续；第二，如果继续，我们会选择做什么。我们至少可以想象三种未来情景：

1. 趋势停滞，但今天的 AI 能力广泛扩散

这篇文章里出现了许多指数型轨迹。但这些轨迹也可能最终只是 S 曲线。我们可能正接近曲线的弯折点：规模回报开始递减，增长线条先变直，再趋于平缓。一个“合格研究员”和“伟大研究员”之间的差别，所依赖的那种判断力，也许并不能通过继续扩大训练输入（如算力和数据）来获得。如果真是这样，那么要越过这一瓶颈，就需要一个新想法，比如一种能够取代当前所有前沿模型所依赖的 Transformer 的新架构路线。

另外，限制 AI 进展的关键约束，也可能不在模型本身，而在供应链：前沿能力的推进与扩散，也许需要比当前世界可提供的更多能源和算力。制芯速度、电网扩容、互连带宽，也许才是真正的约束，而不是智能本身。我们也不能排除某种外生冲击对 AI 生态造成突然减速的可能，比如算力或电力供应骤然收缩——无论哪一种，都会让进步变慢，也让前沿实验室继续投入的成本上升。或者，也可能存在其他我们尚未预见到的障碍。

即使把模型能力冻结在今天的水平，我们仍然预计世界会发生重大变化。Project Glasswing 就是一个早期信号：在最初几周里，Mythos Preview 在全球最重要的一些系统中发现了超过一万个高危和严重级别的软件漏洞，多到网络防御的瓶颈已经从“发现漏洞”转向“来不及修补漏洞”。而且，我们仍处在今天这些模型向更广泛经济体系扩散的早期阶段——未来，一个 100 人的公司，越来越可能做出过去 1000 人公司才能完成的工作，因为每一位员工身后都将站着一个代理金字塔。

之所以把这个情景列出来，是为了完整性；但我们并不认为它最有可能发生。到目前为止，我们能测量到的所有能力——包括那些看起来更“软”、更难量化的能力，比如代码质量和开放任务成功率——都遵循着同样的上升曲线。我们还没有看到这条曲线开始弯折。在我们讨论的三种未来里，这一种会给政府和社会最多的适应时间。相比之下，我们更担心后面两种，因为它们会来得更快，留给准备的空间也小得多。

2. AI 实验室继续获得复利式效率提升

在这个情景里，AI 开发将实现相当程度的自动化，但研究方向仍由人类设定，结果也仍由人类裁定。使用 AI 系统的组织会随着时间推移变得越来越高效，因此我们可以预期，每一个组织成员的生产力都会被成倍放大。一个 100 人的公司，可能做出 1 万人甚至 10 万人组织才能完成的工作。这将彻底改造知识工作和政府服务，但它同样可能被用于有害目的：从针对整个人群的威权监控，到为每个个体量身定制、且以任何人工团队都无法匹敌的规模运行的影响力操控。届时，在 Anthropic 这样的公司里，人类的角色也会改变。人们将与 AI 系统协作，放大研究能力、生成新洞见，并共同建立那些用来验证 AI 输出是否可信的系统。

我们在这里展示的证据表明，我们很可能正在走向这个情景。但一个流程中某一环节的提速，往往只是把瓶颈推到了别处：整体速度终究受制于那些还没有加快的部分。在计算机科学中，这叫阿姆达尔定律（Amdahl’s law），对组织同样成立。Anthropic 已经碰到了阿姆达尔定律的一个典型表现：随着组织内代码流动速度越来越快，人类代码审查已经成为新的瓶颈。

而这种摩擦并不只存在于工程侧。Anthropic 员工与高能力模型协作后，新的想法、计划、工具和模拟实验出现了爆炸式增长，多到我们根本没有足够能力去一一推进。一个组织能多快发现并修复这些新瓶颈，也许会成为一种会随着时间持续进化的能力，并最终成为任何组织最重要的能力。

3. AI 系统本身获得完全递归式自我改进能力，并开始构建它们的后继者

如果技术能力继续沿着当前趋势前进，而 AI 系统又获得了那种属于“变革性人类创造力”的能力，那么 AI 系统设计并优化自身的可能性就是现实存在的。

在这个世界里，AI 开发进度将完全由算力的可获得性决定——或者说，由 AI 系统自己发现训练或推理算法效率提升的速度来决定。人类在开发中的角色将大幅缩小，可能把大部分精力转向对一个不断扩张的、由 AI 系统运行的“虚拟实验室”进行监督、验证与核查。我们预计，一旦系统具备自动化 AI 研究与开发的能力，这些技能也会转移到其他科学领域，从而开始改写更多学科的发展方式。

在这种未来里，对齐问题究竟会被如何解决——或者根本解决不了——是我们最没有把握的部分。模型可能足够对齐，同时也具备足够好的研究品味，以至于能自行发现并实现我们尚未达到的新解决方案；它们甚至也可能足够“明智”，在发现条件不足时主动停止发展。另一种可能则是，今天模型中偶尔出现的失配问题，会随着模型不断构建其后继者而不断累积，变得越来越频繁、却越来越难以理解，直到我们最终失去控制。也有可能，我们根本来不及建立、整合并验证那些帮助我们判断自己究竟正处在哪条轨道上的工具。

我们对这个世界会长什么样没有良好直觉，因为今天的经济仍由人类和人类制造的工具驱动。而从定义上说，一个由快速递归式自我改进驱动的世界，可能会被这种能不断自我增强的模型所主导：随着它的能力全面超越人类，并在整个经济中扩散，世界将发生根本变化。如果人类劳动不再具有竞争力，我们很难预测那时的经济会是什么样子。

即使模型开发真的实现了完全自动化与递归化，我们仍无法预测这对大多数人的日常生活究竟意味着什么。阿姆达尔定律在这里同样适用。递归式智能可能会在某些领域迅速实现《Machines of Loving Grace》中提到的许多好处。我们预计，具身智能（也就是机器人）可能会很快跟上递归式智能，并沿着类似路径，以更低成本获得越来越高的回报。更强大的智能，也许会帮助我们更快地建造现实世界中的系统，开展更高效的救命药物临床试验，发展新的协调机制。

但仅仅实现递归式改进，并不意味着工业生产方式、社会组织方式或市场运行方式会立刻改变。更强的智能无法让我们在几天内看见一种药物几十年后的长期副作用，无法让选举早于宪法规定的时间举行，也无法在一个周末之内把陌生人变成老朋友。对大多数人而言，这种未来的“体感速度”仍将由瓶颈决定——即便上游实验室已经在以算力的速度奔跑。递归式智能持续越来越快地构建自身，而另一边的人类世界仍受制于关系、治理和制度的节奏；这两者碰撞出的未来，也是我们无法预测的部分。

06 我们应该做什么？

如果有可能有效放慢这项技术的发展，为社会争取更多时间去应对它所带来的巨大影响，我们认为这大概率会是一件好事。但如果“放慢”只是让那些最不谨慎的参与者在技术上赶上来，那反而可能使所有人更不安全。在缺乏全球协调机制的情况下，企业和政府都将不得不在竞争压力和地缘政治压力下，艰难地做出安全相关决策。

我们认为，世界如果拥有“减速”或“暂时暂停”前沿 AI 开发的选项，会是一件好事——这样，社会制度建设和对齐研究才有机会跟上技术前进的速度。Anthropic Institute 将与许多其他机构合作，开展研究并采取行动，帮助建立一种真正可信的减速或暂停机制所必需的系统。这些系统应当使前沿 AI 开发者能够验证：全球其他参与者确实也已经停止或放慢了脚步，同时也能确保坏行为者不会借由“协调减速”的名义偷偷加速领先。如果这样的系统存在，我们预计：只要其他位于前沿或接近前沿的开发者也在可验证前提下采取了同样行动，我们会愿意放慢甚至暂时暂停。

一次有意义的减速或暂停，要求多个资源雄厚、处在前沿或接近前沿的实验室，分处多个国家，并在同样条件下同意停下；同时，还要求各方都能验证其他方确实停下了。由于 AI 系统本身的独特特性，这一军控问题中的“可探测性”（detectability——标准低于“可验证性”）比其他技术困难得多。训练运行比导弹发射井更容易隐藏，它们的输入也都是通用型资源，而偷偷违约的激励又极其强烈——因为当别人暂停时，谁继续推进，谁就可能继承领先地位。一个可信的暂停机制还必须明确：什么触发暂停，什么条件下解除暂停，以及由谁来裁定。

从原则上说，这并不一定不可能。人类社会曾经为其他复杂技术建立过验证机制，比如《中导条约》（Intermediate-Range Nuclear Forces Treaty）。但那类机制用了几十年才建立起基础设施与互信。我们已经没有那么长时间了。相比之下，由单个实验室单方面暂停，今天立刻就可以做到，但作用小得多：它只会改变谁是领跑者，却无法创造当前真正缺失的、更广泛的社会性讨论过程。

未来几个月，我们将组织一系列讨论，让政策制定者、研究人员、公民社会以及其他 AI 公司，一起回答本文提出的一些问题，尤其是关于完全递归式自我改进，以及如何为协调与审议创造更好选项的问题。我们也会把这些讨论的成果发布出来。现在，正是一起研究这些问题的窗口期，而 AI 公司之外的人，也应当被纳入这场讨论。

Marina Favaro 和 Jack Clark 共同撰写了本文，Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 基于 Brian Calvert 与 Jun Shern Chan 收集的数据制作了文中视觉内容。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈。

脚注

[^1]: METR 的关键衡量指标，是 AI 系统在一组任务上达到 50% 可靠性时所对应的任务时长；不过，即便使用 80% 可靠性标准，趋势线看起来也几乎一样。

[^2]: 尤其当基准越来越偏向开放式格式和更困难任务（例如奥数级数学问题）时，由于题目与答案集本身可能存在歧义、题目无法求解等问题，基准往往会在低于 100% 的位置就“饱和”。

[^3]: Anthropic 管理层曾公开估计，我们超过 90% 的代码都是由 Claude 写的，这其中包括脚本和实验性代码。本文所说的 “>80%”，指的是合并进生产环境的代码行中，可归因于 Claude 的占比。这个指标更保守，体现在两方面：一是我们的归因流程本身存在缺口；二是那些未被归因给 Claude 的代码行中，也包含自动生成代码和其他并非人类手写的内容。

[^4]: 这轮代码产量激增，正在挤压大家共用的基础设施。作为全球大部分软件构建的平台，GitHub 在整个 2025 年大约记录了 10 亿次代码提交；而到 2026 年年中，这一数字已经变成每周 2.75 亿次，按全年速度估算大约会达到 140 亿次。GitHub 首席运营官表示，公司正“极其努力地”扩容，仅仅为了跟上这个增长速度。

[^5]: 关于这项调查的方法学细节，可参见 Claude Opus 4.7 System Card 的第 2.3.5 节。

[^6]: 许多受访者可能并未仔细考虑应如何校正这个问题中的各种偏差或定义细节，而 METR 最近的研究显示，开发者对 AI 带来生产率提升的主观估计，往往会高于实际值。

[^7]: 具体加速能达到多大程度，很大程度上取决于起始代码本身还留有多少优化空间，因此这里的绝对倍数不应被直接解读为现实世界中的训练加速效果。更有信息量的是这种“同条件对比”所提供的比较：不同模型之间（过去一年从约 3 倍到约 52 倍）以及模型与熟练人类之间（在同样任务上，人类 4 到 8 小时做到约 4 倍）的差异。

[^8]: 为了检查裁判偏置，我们还在另一组 127 个时刻上做了同样测试；这些时刻里，人类当时的下一步本来就已经很强（与原始测试集“人类方向存在改进空间”不同）。在这组对照中，模型给出的建议只有大约 20% 的情况下被判定为更优。

作者：硅星人

来源：硅星人Pro

AI要自己造AI了？Anthropic最新暴论，到底有多真？

青瓜传媒 — Mon, 08 Jun 2026 01:45:22 +0000

Anthropic又出暴论了。

这次他们发了一篇报告，标题叫《When AI Builds Itself》（AI在构建自己）。

先来几组数字感受一下：

截至今年5月，Anthropic超过80%的代码已经由Claude自己写；工程师人均代码产出翻了8倍；Claude可以连续自主工作超过16小时。

Anthropic给出的判断是，如果按现在的趋势继续下去，AI自己设计、构建下一代AI，是完全可能发生的。

基于这种风险，Anthropic甚至呼吁全球放缓前沿AI研发！

观点一出，社交媒体立刻炸了：”AI要自己造自己了！””递归自我改进（RSI），奇点要来了！”

熟悉的配方，熟悉的味道。

如果你在AI圈混了超过两年，一定认得这个节奏：

每隔几个月，就会有一家头部AI公司抛出一个让人觉得”时代要变了”的论断；

社交媒体集体进入焦虑模式，然后……

日子还是照过。

前几天OpenAI刚说完“AI显现出递归自我改进（RSI）的早期迹象”，Anthropic后脚就来一篇”AI正在造下一个自己”。

现在连营销话术都要你追我赶了吗？

今天这篇文章就来拆解一下，Anthropic和OpenAI说的RSI到底是什么？现在到了哪一步？未来AI可能走向哪里？

看完你再决定，到底该不该焦虑。

01 Anthropic走到了哪一步？

递归自我改进(Recursive Self-Improvement，RSI)，是AI圈讨论了近二十年的老话题。

核心逻辑很简单：AI能改进自身，改进后的下一代又能改进再下一代，不需要人类介入，形成自我加速的能力飞轮。

这是AI奇点理论的触发条件。

不过在讨论”目前RSI到了哪一步”之前，你得先搞清楚，RSI不是一个临界点，而是一个阶梯。

这些年关于RSI的研究，共同给出了一把衡量RSI进度的尺子，可以把它大致分成六个阶段：

第0级：AI是普通工具，补全代码、查资料。

第1级：AI大量参与软件工程，写测试、修bug、改仓库。

第2级：AI参与AI研发本身，训练代码、评估、数据、实验分析。

第3级：半自动研究闭环，AI提假设、写代码、跑实验、分析失败、迭代方案。

第4级：自改进Agent，AI修改自己的工具链和代码架构，并用benchmark自动筛选出更好的版本。

第5级：完整RSI，AI自主设计、训练、部署更强的后继模型，由后继模型继续迭代。

那么，Anthropic现在在哪儿？先看Anthropic自己怎么说。

Anthropic在报告里也画了一张时间轴，把AI介入AI开发，分成五个阶段：

2021-2023年，人类写代码AI不参与；

2023-2025年，用ChatBot生成片段、人复制粘贴；

2025-2026年，Agent能独立写完整文件；

2026年也就是现在，自主Agent可以运行代码、委托子Agent、连续工作数小时；

最后是20XX年，Agent能自主设计并训练下一代模型，那才是真正的RSI。

按他们自己的地图，他们现在已经在第四阶段，离终点只剩一步。

但事实真的如此吗？

对照业界研究的六个阶段，Anthropic的位置更像是处在第3-4阶段之间，也就是半自动研究闭环和自改进Agent阶段。

Anthropic内部有一个公开披露的实验：

Claude Agent全程自主完成一个AI安全研究项目，从提假设到分析结果全部自动，用约800小时、约1.8万美元算力成本，恢复了97%的性能缺口，而两名人类研究员花了整整一周只恢复了23%。

这是一个真实运转的半自动研究闭环，说Anthropic已处在第3阶段不为过。

第4阶段的迹象同样存在。

Anthropic做了一个代码优化实验。

Claude拿到训练小模型的代码，自主运行、计时、修改、再运行，跑出了52倍的速度提升，人类熟练研究员做同样任务只能做到4倍。

这非常接近自改进Agent的逻辑：改工具链、跑benchmark、选更好的版本。

02 卡住RSI的关键

但值得注意的是，还有一个关键环节没被Anthropic跨越。

Anthropic在文章里提到了一个词，叫做research taste（研究品味），这是判断什么问题值得做的能力。

用他们自己的比喻：

初级员工接到的任务是”这个按钮坏了，去修”；

有经验的员工接到的是”网络有时候会变慢，查一下原因”；

最资深的人在思考的是”我们下个季度该做什么”。

目前，Claude在第一层已经很强，第二层在快速追赶。

但在第三层，比如“什么问题值得做、哪些结果可信、什么时候该放弃”这些研究品味上，人类仍有比较优势。

只要人类还在主导这个环节，AI就没有实现完全的自改进Agent，更不用说达到完整RSI阶段。

不过，报告里一个数字值得单独拿出来。

在”判断研究下一步该怎么走”这件事上，Claude Mythos Preview已经能在64%的情况下，被另一个Claude judge判定为提出了更好的下一步，五个月前这个数字还是51%。

这表明进化的趋势是对的，但离AI完全自主判断还很远。

更重要的是，这个数据是在问题边界清晰的情况下测量的。在真实环境里，AI能判断到什么程度，其实并无定论。

03 AI发展的三种结局

Anthropic抛出的数据很亮眼，但是AI未来到底会发展到什么程度，Anthropic也不敢把话说满，在报告里老老实实列出了三种情形。

第一种：趋势停在S曲线上

当AI能力增长遇到天花板——Transformer架构撞墙、算力和能源供应跟不上、地缘政治把全球AI协作切断，指数曲线会弯成S形，然后趋于平缓。

Anthropic认为，这是三种结局里最不可能发生的一种。

但他们也承认，即使是这个最温和的版本，后果也不轻松。

今天已有的模型能力就此冻结，也已经足够让一家百人公司，越来越接近过去千人公司才能完成的工作。

社会结构的震荡不会因为AI停止进步而消失，它只是换了一种形态继续。

第二种：飞轮转起来，人类还在掌舵

AI处理执行，人类负责判断；AI生成选项，人类做最终决策。

听起来是个不错的结局，但Anthropic指出了一个隐藏的麻烦：Amdahl定律，加速一个环节，瓶颈会转移到下一个。

比如代码写得快了，code review变成新的堵点；实验跑得快了，结果分析又慢下来；分析快了，决策链路又开始拖后腿。

Anthropic说他们内部已经在经历这个过程，每一波效率提升之后，下一个瓶颈就浮出水面。

它意味着人类掌舵会越来越费力，要求越来越高，人类需要在更快的节奏里做出更好的判断。

Anthropic认为这是最可能发生的近期情景，而且他们现在已经在这条路上了。

第三种：完整RSI，人类退到验证角色

AI开始自主构建后继模型，进度由算力决定，人类从主导者变成监督者和验证者。

好处在于，可能快速实现医疗突破、科学加速、贫困问题的系统性解法。

但坏的一面是，今天模型训练中，哪怕只有一个微小的目标偏差，在完整RSI的迭代循环里可能以指数速度放大，直到人类完全失去干预能力。

这是最不确定的结局。

讲完三种结局，报告末尾Anthropic开始呼吁，希望建立某种全球协调机制，在风险上升时能够有序放缓甚至暂停前沿AI开发。

翻译一下这段话的意思：AI递归自我改进势头太猛，我们很担心，觉得应该有人出面让大家一起停下来，但Anthropic不会单方面停。

多么熟悉的味道。

这套叙事Anthropic已经用了不止一次，在制造焦虑的同时，把自己定位成”威胁的发现者”和”最有能力应对威胁的公司”。

但看完Anthropic内部真实情况，以及它自己给出的AI未来可能性，你还会感到焦虑吗？

作者：世界模型工场

来源：世界模型工场

突发！Anthropic呼吁全员停止AI研究

青瓜传媒 — Fri, 05 Jun 2026 06:52:48 +0000

重要发现：AI的自进化，开始了。

这是Anthropic刚刚在长文博客中，发表的暴论。

我们的内部数据显示，Claude正在加速AI发展，这可能是一条递归自我提升（RSI）的路径。

并非「危言耸听」，看了下文章，Anthropic是真的实打实地用数据在说话——

截止今年5月，80%以上的Anthropic代码，都是Claude写的。

而在Claude Code发布之前，这个数字还仅是个位数。

与此同时，Anthropic工程师平均每季度交付的代码量，是2021-2025年的8倍。

更重要的是质量——

在最开放、最模糊、连答案长什么样都不确定的编程任务上，Claude的成功率现在是76%，六个月前才26%。

50个百分点的跳升。半年。

Anthropic内部已经有不少工程师觉得，Claude写的代码质量和人类打平了。

预计年内会超过。

Anthropic还强调，如果这个趋势持续下去，AI自己设计和构建下一代AI，是完全可能的。

这可能彻底改变社会，在医疗、科技、经济领域带来巨大的好处。但也可能让对齐问题叠加恶化，最终导致失控。

因此，Anthropic带头呼吁：

如果存在一个可验证的机制，能保证AI实验室确实都没偷偷卷，我们愿意减速、甚至暂停。

除此之外，Anthropic的这篇博客里，还放出了蛮多有意思的观点和事实。

以下是经过整理，更方便大家阅读的版本。

Enjoy。

Anthropic长文定调

AI圈的摩尔定律来了

Anthropic创建了个全新的衡量维度，叫「AI能独立完成的任务时长」。

2024年3月，Claude Opus 3能搞定人类大概需要4分钟的软件任务。

一年后，Claude Sonnet 3.7，1.5小时。

又一年，Claude Opus 4.6，12小时。

而最新的Mythos，在内测中的表现是：

能连续工作「至少」16小时，已经到了METR测试框架能衡量的上限了。

这个翻倍速度，从原来的每7个月翻一倍，加速到了每4个月翻一倍。

如果趋势不变，2027年，可能是好几周。

Claude编写了大部分Anthropic代码

截至2026年5月，我Anthropic代码库的代码，超过80%由Claude编写。

在Claude Code发布前，这个数字一直只有个位数。

这种变化，也体现在工程师的工作方式上。

在 Anthropic 的最初四年，工程师每天Merge的代码行数基本保持不变。

2025年， Claude开始自己写代码，merge数突然开始飙升。

如今，2026年第二季度，工程师每天merge的代码量是2024年的8倍。

不过，代码量上去了，代码质量是不是注水了？

Anthropic说，这一年来，工程师纠正Claude的次数，越来越少了。

这一点，在benchmark中可见一斑，如下图所示。

所有难度类型的任务中，Claude的成功率，无一例外的一路暴增。

所以，Anthropic现在干脆用Claude来review代码。

是的，所有提交到代码库的改动，都会先过一遍Claude自动审查，检查bug、安全漏洞和其他缺陷。

他们回溯分析发现，如果之前每次改动都有这道自动审查，大约三分之一导致claude.ai线上事故的bug，上线之前就会被拦下来。

要知道，写那些代码的工程师，已经是全世界造AI系统最顶尖的一批人了。

Claude在抓他们的错误。

创造力的放大镜

接下来是Claude在研究层面的参与程度。

Anthropic有个惯例，每次发新模型，都会给Claude一段训练小型AI模型的代码，让它在保证正确性的前提下，把运行速度优化到最快。

2025年5月，Claude Opus 4交出的答案是：加速3倍。

2026年4月，Claude Mythos Preview做到了52倍。

作为参考，一个熟练的人类研究员，需要4到8个小时才能勉强达到4倍。

不到一年的时间，Claude超过了人类。

2026年4月，Anthropic丢给Claude一个AI安全研究，大意是「一个弱模型能不能可靠地监督一个强模型」，然后让Claude自己提假设、跑实验……

这次先说人类的表现吧，两个人类研究员花了大约一周时间，把gap缩小了23%。

而Claude，在大约800小时、花了大约18000美元的算力之后——

缩小了97%。

我们何去何从？

到这里为止，结论已经很清楚了。

人类在AI开发流程里的角色，每一个环节都在收窄。

代码，Claude写了。代码review，Claude做了。实验执行，Claude快了人类一个数量级。实验设计，Claude开始自己来了……

人类现在最后的比较优势，是研究品味和判断力。

但这个优势能守多久？

Anthropic在博客里说，他们也不确定。

一种可能是，「研究品味」就像之前AI不会的其他东西一样，先是做不到，然后突然就做到了。

就像AI理解幽默、展示心智理论、解语言谜题，都经历了同样的曲线。

另一种可能是，即便Claude永远学不会真正的研究品味，仅靠现在的加速趋势，每个人类研究员能同时指挥的工作量已经大了好几倍。

你不需要AI完全替代你思考，它只要把所有「执行」的活全干了，你就只需要做那5%的方向选择。

RSI的三种未来

博客结尾，Anthropic描绘了关于这次「自进化」趋势三个可能演化方向。

1、停滞。

那些指数曲线其实是S曲线。

也许研究判断力这个东西就是没法靠scale解决，需要一种全新的架构突破。

或者，瓶颈在能源、在芯片、在算力的物理供应链上。

不过，即便AI的能力就停滞在今天的水平，也会发生对世界带来重大变化。

前段时间的Project Glasswing，Mythos Preview在上线头几周就发现了超过一万个高危和严重级别的软件漏洞，遍布全球最关键的系统。

2、AI持续加速，但人类仍然把着方向盘。

组织效率会指数级提升，100人的公司做1万甚至10万人的活。知

Anthropic觉得我们大概率正在走进这个场景。

但他们也发现了一个有意思的现象，就是阿姆达尔定律在组织里的体现_

Claude把代码写得飞快了，结果代码review变成了新瓶颈。各种新想法、新工具、新实验爆炸式涌现，远超组织的消化能力。

瓶颈不会消失，只是转移到下一个环节。

3、AI实现完全的递归自我提升，开始自己造下一代自己。

这个场景下，AI的发展速度完全取决于算力了。人类退到监督、验证、审核的位置。

如果真的发生，这种能力大概率会迁移到其他科学领域，医学、材料、能源，全线起飞。

当然，另一种未来，是对齐失败。

这种情况下，偏差会在AI自我迭代的过程中逐步累积，最终——完全失控。

OMT

以上，便是Anthropic此次关于自进化，最关键的几个观点。

说实话，最开始我其实没太当回事，毕竟Anthropic马上就要IPO了，这一波不是典型的「Anthropic式」公关？

你别说，这次，可能真的有点不一样。

因为就在几天前，OpenAI也发布了类似的博客：

我们也在当今系统中看到自进化的早期迹象： AI的发展本身也被AI加速。我们预计这将加剧开发商和国家之间的竞争压力，并带来现有机构无法应对的治理挑战。随着RSI的出现，社会需要方法塑造AI的发展轨迹，确保其服务于人类利益。

奇点，似乎来得比所有人预想的都要快。

作者：关注前沿科技

来源：量子位

AI 时代的新流量生意

青瓜传媒 — Fri, 05 Jun 2026 05:56:05 +0000

前几天写了一篇2026 年，普通人能做的 6 个 AI 生意。里面提到一个方向是做 GEO，AI 搜索优化。

这一篇就是对这个方向的具体延展和实操建议，也算是上面那篇文章的收尾。其他几个方向就不再延展了，但如果你还对哪个方向感兴趣可以留言或者私信我。

01 现实：流量入口已经发生变化

一个家长想给孩子报英语课。

以前，他可能会打开百度，搜“上海少儿英语培训机构”，再去小红书看测评，去大众点评看门店评价，最后加几个销售微信慢慢问。

现在，他很可能直接问 AI：

“上海浦东有什么适合三年级孩子的英语培训班？预算一年 2 万以内，最好离地铁近，不要太鸡血。”

AI 不会像百度一样给他一排付费推广链接，让用户自己慢慢点和判断。

AI 会直接整理出几个机构，告诉他各自适合什么孩子、价格大概在哪个区间、口碑怎么样、要注意什么坑。

这时候，商家的问题就变了。

过去，商家争的是搜索结果第一页；现在，还要争 AI 回答里的候选名单。

如果 AI 推荐了 A、B、C 三家，你不在里面，用户可能连认识你的机会都没有。

如果 AI 提到了你，但信息是旧的、错的、模糊的，用户的第一印象也会被影响。

这就是为什么“被 AI 推荐”已经成为商家的新流量入口。

因为用户的行为路径变了：用户现在直接问 AI 怎么选、买什么、去哪家；

所以商家的经营逻辑也要跟着变：商家要让 AI 能找到你、看懂你、信任你，并且正确描述你。

02 搜索正在从“找链接”变成“要答案”

以前的搜索，是用户自己筛选。

用户搜“北京旧房翻新”，出来一堆广告、官网、问答、笔记、地图结果。用户自己点进去，自己判断哪家靠谱。

AI 搜索把这个过程往前挪了一步。

用户不再只搜关键词，而是直接把需求说出来：

“老房翻新，预算 10 万以内，怎么找靠谱公司？”
“第一次洗牙怎么选，不想被推销？”
“家里有猫，空气净化器怎么选？”
“3000 元以内，适合女生通勤的电动车有哪些？”
“国内做出海电商 ERP 的公司，哪几家比较适合中小卖家？”

这类问题更长，也更像真实咨询。

AI 会先理解需求，再去组织信息，最后给出一个相对完整的答案。

它可能引用官网、媒体报道、点评、小红书、知乎、商品页、论坛、测评文章，也可能综合多个来源，直接给出推荐理由。

对商家来说，这就意味着流量入口多了一层。

以前你要让用户搜到你，现在你还要让 AI 在回答里提到你。

而且，这件事不只影响大品牌，也会影响小商家。

家装公司、口腔门诊、宠物医院、教培机构、婚纱摄影、汽车门店、本地旅游、消费品品牌、B2B 软件公司，都会遇到同一个问题：

当用户问 AI 怎么选的时候，你有没有进入候选名单？

03 商家真正怕的，是从候选名单里消失

AI 搜索优化这个词说得简单一点，就是：

让商家在 AI 回答里更容易被看见、被理解、被正确推荐。

它和传统 SEO 有相似的地方，但也有明显不同。

传统 SEO 更关心排名，比如“上海装修公司”这个词，我能不能排到第一页。

AI 搜索更关心答案，比如用户问“上海老房翻新怎么选公司”，AI 会不会把你放进“值得比较的几个选择”里。

这中间差别很大。

用户在百度搜关键词时，哪怕你排在第二页，他还有可能继续翻。

用户问 AI 时，如果 AI 只给了 3 到 5 个选项，不在名单里，你就直接出局。

更麻烦的是，AI 不一定只看你的官网，它会看全网信息。

你的官网、公众号、小红书、点评、地图、新闻稿、客户案例、第三方评价、行业榜单、问答内容，都可能影响它怎么理解你。

所以，商家以后要做的不只是发内容，而是要管理自己在全网留下的信号：

你是谁？你服务谁？你在哪些城市？
你有什么案例？你的价格大概怎么构成？
你和同行有什么差别？客户为什么信你？
网上有没有足够多的信息证明你真的在做这件事？

如果这些信息散、乱、旧、互相矛盾，AI 就很难准确推荐你。

04 先别急着做内容，先做一次 AI 体检

这件事最实操的第一步，不是写文章，也不是发小红书，而是先测。

拿一家家装公司举例，不要一上来就问：“某某装修公司怎么样？”

这个问题太直接，也太窄，而且真实用户不会只这么问。

你要先建立一组用户可能会问 AI 的问题，比如：

“上海老房翻新，怎么找靠谱装修公司？”
“100 平旧房翻新，预算 10 万够不够？”
“半包、全包、整装有什么区别？”
“老房翻新最容易超预算的地方是什么？”
“上海有哪些擅长老房翻新的装修公司？”
“装修公司报价差一倍，通常差在哪里？”
“第一次装修，签合同前要问清楚哪些问题？”
“怎么判断一家装修公司靠不靠谱？”
“旧房翻新，水电改造要注意什么？”
“上海小户型翻新，有哪些公司案例比较多？”

这组问题跑完，去看 AI 怎么回答，然后要记录四件事：

第一，AI 有没有提到你；

第二，AI 提到了哪些竞品；

第三，AI 是怎么描述你的；

第四，AI 的信息来自哪里。

很多商家以为自己网上内容挺多，但一测就会发现：AI 根本不知道它是谁，或者只知道它的旧地址、旧价格、旧业务。

还有一种情况更常见：AI 会推荐竞品，因为竞品在知乎、小红书、大众点评、媒体文章里有更多可引用的信息。

你自己觉得自己更专业，但网上没有足够多的材料证明。

这就是服务机会，小团队可以帮商家做一份 AI 可见度体检表。

表格不用复杂，先做这些字段就够了：

问题、平台、是否提到品牌、提到位置、提到的竞品；

AI 对品牌的描述、引用来源、信息是否准确；

下一步优化动作。

这里有个经验：不要只测一次。

AI 的回答会变，不同时间、不同问法、不同平台，结果都可能不一样。

只截一张图就说我们上 AI 推荐了，这个不靠谱。至少要用一组问题，分几次测，才能看出大概趋势。

05 用户怎么问，比关键词更重要

传统 SEO 喜欢从关键词开始，比如“北京洗牙”、“上海装修公司”、“少儿英语培训”。

AI 搜索不一样，用户问得更像一个人。

他不会只说“洗牙”，他会问：

“第一次洗牙疼不疼？”、“洗牙会不会把牙洗松？”、“99 元洗牙靠谱吗？”

“洗牙前要不要先检查？”、“北京朝阳周末能约洗牙的口腔门诊有哪些？”

这类问题背后，其实是用户的顾虑。

所以，商家做 AI 搜索优化，先要拆用户问题，而不是先堆关键词。

比如，可以把问题分成六类：

第一类，选择型问题。

“怎么选？”、“哪家靠谱？”、“新手怎么避坑？”、“适合什么人？”

第二类，比较型问题。

“A 和 B 有什么区别？”、“线上课和线下课怎么选？”、“半包和全包哪个更适合我？”

第三类，价格型问题。

“大概多少钱？”、“为什么价格差这么多？”、“低价套餐有没有坑？”、“预算不高怎么选？”

第四类，风险型问题。

“会不会踩坑？”、“有什么隐形收费？”、“哪些情况不适合？”、“签合同前要注意什么？”

第五类，本地型问题。

“附近有哪些？”、“周末能不能约？”、“哪家离地铁近？”、“哪个门店评价好？”

第六类，品牌型问题。

“某某品牌靠谱吗？”、“某某机构适合什么人？”、“某某公司和某某公司怎么选？”

这六类问题，其实就是内容选题库。

商家以后做内容，不能只发“我们很专业”、“我们服务好”，这种内容对 AI 和用户都没什么帮助。

真正有用的内容，是回答具体问题。

06 信息底座要先整理干净

很多商家做 AI 搜索优化，第一个错误就是急着发内容。

但如果你的基础信息是乱的，发再多也没用。

以一家宠物医院为例，至少要把这些信息整理清楚：

门店地址、营业时间、是否 24 小时急诊；
医生团队、擅长项目；
猫狗绝育价格区间、疫苗和体检项目、术前注意事项、术后护理说明；
预约方式、停车和交通、常见问题、真实评价、投诉处理方式。

这些信息要尽量在多个公开渠道保持一致。

官网写 9 点开门，大众点评写 10 点；
小红书写绝育 599 元起，抖音写 399 元；
地图上电话是旧的，公众号菜单又是另一个电话；
医生介绍有的写 8 年经验，有的写 10 年经验。

这种信息不一致，人看了会疑惑，AI 也会疑惑。

AI 更容易理解结构清楚、文字明确、更新及时的信息。

所以，商家的第一步不是搞定 AI，而是把自己的公开信息先整理成一套标准答案。

这套答案可以包括：

一页品牌介绍、一页服务项目说明、一页价格说明；

一页案例合集、一页常见问题、一页门店信息；

一页预约流程、一页客户评价整理。

这些内容不一定都要放官网，国内很多小商家没有官网，那就放在公众号、小程序、视频号主页、抖音企业号、微信小店、点评商户页、小红书置顶笔记里。

关键是：AI 能看懂，人也能看懂。

07 内容要像“咨询记录”，不要像广告

AI 更容易引用什么内容？

通常不是“某某品牌年度钜惠”、“我们坚持匠心服务”这种广告文，而是能解决具体问题的内容。

比如家装公司，不要只写：《某某装饰，老房翻新专家》，这种标题太空。

可以写：

《100 平老房翻新，预算通常花在哪些地方》
《上海老房翻新，最容易漏算的 7 项费用》
《半包、全包、整装怎么选，适合什么家庭》
《旧房翻新前，先确认这 10 个问题》
《装修报价差一倍，通常差在这几个地方》

这类内容更像真实咨询，用户愿意看，AI 也更容易从里面提取信息。

再比如教培机构，不要只写：《专注少儿英语 15 年》。

可以写：

《三年级孩子英语跟不上，先补词汇还是语法》
《一年 2 万预算，线下英语课怎么选》
《英语启蒙晚了，还能不能追上来》
《小学生报英语课，家长最该问机构的 8 个问题》
《外教课、中教课、AI 课，分别适合什么孩子》

再比如消费品品牌，不要只写：《新品上市，限时优惠》

可以写：

《新手买咖啡机，最容易忽略的 5 个参数》
《办公室咖啡机怎么选，重点看什么》
《预算 1000 元和 3000 元，咖啡机差在哪里》
《小户型适合什么样的空气净化器》
《家里有猫，空气净化器要看哪些指标》

这些内容的目的，不是硬推销，而是让用户和 AI 都知道：你真的懂这个场景。

08 第三方信息很重要

商家自己说自己好，当然有用，但不够。AI 在生成推荐时，往往会参考第三方信息，用户也一样。

所以，AI 搜索优化里很重要的一步，是把第三方信号做好。

本地生活商家，要重点看这些地方：

大众点评、美团、抖音企业号、小红书笔记、微信搜一搜、百度地图、高德地图、本地生活媒体、用户评价区等。

消费品品牌，要重点看这些地方：

电商详情页、用户评价、测评文章、小红书、知乎、B站、抖音、什么值得买、垂直媒体等。

B2B 公司，要重点看这些地方：

官网、客户案例、白皮书、行业报告、媒体报道、合作伙伴页面、招投标信息、客户证言、第三方榜单等。

这里有一个非常具体的工作：检查外部平台上别人怎么描述你。

是不是有人把你业务写错了？
是不是地图地址过期了？
是不是点评里的差评集中在某个问题？
是不是小红书上用户最关心价格，但你没有任何价格说明？
是不是媒体报道只写了融资，没有写清产品到底适合谁？

这些都会影响 AI 对你的理解。

但这里也要提醒一句：不要做假评价，不要批量灌水，不要用低质内容污染平台。

短期可能有点效果，长期一定伤品牌。

AI 搜索会越来越重视可信来源和一致信号，粗糙刷屏只会让商家显得更不可信。

09 被 AI 提到以后，还要接住转化

很多人讨论 AI 搜索优化，只盯着 AI 有没有提到我，这还不够。

真正的生意链路是：

用户问 AI –>； AI 提到你 –>；用户进一步搜索你 –>；用户进入你的主页、门店页、公众号、小红书、官网 –>；用户发起咨询 –>；商家承接咨询 –>；最后形成预约、到店、下单或成交。

中间任何一步断了，都没用。

比如 AI 推荐了一家装修公司，用户下一步可能去小红书搜案例。如果主页只有几条活动海报，没有真实案例，他就走了。

比如 AI 提到一家宠物医院，用户去地图上看，发现电话打不通，营业时间不清楚，他也走了。

比如 AI 推荐一家教培机构，用户点进公众号，找不到课程价格、适合年级、试听入口，他还是走了。

所以，AI 搜索优化一定要接到转化，最少要检查五件事：

第一，用户搜品牌名时，出来的信息是不是清楚。

第二，用户进入主页后，能不能在 10 秒内知道你做什么、适合谁、怎么联系。

第三，用户想咨询时，有没有明显入口，比如微信、电话、表单、私信、预约按钮。

第四，用户问常见问题时，有没有 AI 接待或人工及时回复。

第五，用户从不同平台进来时，信息是不是一致。

这也解释了为什么 AI 搜索优化可以和我之前写的另一篇 AI 接待员连起来。

对小商家来说，这两件事会越来越像一套完整服务。

10 小团队的机会，不是包推荐，而是做落地

这个方向对普通人和小团队有什么机会？

不要去做“包上 DeepSeek”、“保证豆包推荐你”、“花钱植入 AI 答案”这种服务。

这种承诺不靠谱，也不专业。更实际且可以落地的服务，是帮商家做四件事：

第一，AI 可见度体检。

帮商家设计 30 到 100 个真实用户问题，在豆包、元宝、百度 AI 搜索、夸克、Kimi、DeepSeek、ChatGPT 等平台测试。

看品牌有没有被提到，竞品是谁，描述是否准确，引用来源是什么。

交付物不是几张截图，而是一张表和一份诊断。

第二，信息底座整理。

把商家的业务、价格、门店、服务流程、案例、FAQ、评价、资质整理成统一材料。

再分发到公众号、官网、小程序、抖音企业号、小红书、点评、地图等渠道。

第三，问题型内容生产。

围绕用户真实问题做内容，不写空泛宣传。每篇内容都回答一个具体问题，最好有清楚的适用人群、价格逻辑、比较维度、风险提醒和下一步行动。

第四，月度监测和优化。

每个月固定跑一批问题，看品牌出现率有没有变化，竞品有没有变化，AI 描述是否准确，有没有新差评、新误解、新内容机会。

11 一个可落地的服务包长什么样

如果要把这件事做成小生意，可以设计成三个层次。

第一层，体检包，适合第一次尝试的商家。

服务内容包括：确定业务关键词，设计问题库，跑 AI 测试，记录竞品，检查基础信息，输出诊断表。

这一步的重点是让商家看到问题，比如：

AI 没有提到你、AI 提到了你，但地址错了；

AI 提到竞品，是因为竞品有更多案例内容；

AI 对你的业务理解停留在旧版本；

用户最关心价格，但你全网没有清楚解释价格。

第二层，搭建包，适合已经决定要做的商家。

服务内容包括：整理品牌信息，重写服务介绍，制作 FAQ，优化门店信息，梳理案例，规划 20 到 50 个问题型内容，统一各平台资料。

这一步的重点是把信息底座打好。

第三层，运营包，适合持续获客的商家。

服务内容包括：每月更新问题库，每周发内容，监测 AI 回答，修正错误信息，跟踪线索来源，优化咨询承接话术。

这一步的重点是持续迭代。

AI 搜索不是一次性工程，它更像经营信用。

你要持续让全网知道你是谁、你解决什么问题、为什么值得被推荐。

12 最适合先做的行业

这个方向最适合从高决策成本行业切入。

家装适合，用户决策慢、怕踩坑、问题多、客单高。
教培适合，家长会反复比较，也会问大量具体问题。
宠物医院适合，用户很在意专业性、价格透明和医生可信度。
婚纱摄影适合，用户看案例、问价格、问隐形消费，决策链路长。
本地旅游和定制旅行适合，用户经常问路线、预算、适合人群、避坑。
B2B 软件也适合，企业客户会问“有哪些选择”“A 和 B 怎么选”“哪家适合中小企业”。
消费品品牌也适合，尤其是用户购买前需要比较的品类，比如家电、母婴、咖啡机、运动装备、美妆个护、健康设备。

低客单、低咨询、即时消费的生意，优先级没那么高。

比如便利店、普通小吃摊、低价日用品，不一定需要先做 AI 搜索优化。用户决策太快，AI 推荐的影响没那么明显。

13 这件事最怕做歪

现在市场上已经有很多人开始讲 GEO，有些服务听起来很诱人：包推荐、包上榜、包出现在某个 AI 的回答里。

这种最好谨慎。

AI 回答本身就不稳定，不同问法、不同时间、不同用户，答案都可能变。

靠几张截图交付，很难证明长期效果。

还有一种做法，是批量生成低质内容，往全网灌。

这也不值得做。

AI 搜索优化不是钻空子，它真正有效的部分，是把商家分散、混乱、不清楚的信息，整理成用户和 AI 都能理解的内容。

说到底，它考验的还是基本功：

你是不是真的懂用户问题？你有没有把服务讲清楚？
你有没有真实案例？你的价格逻辑能不能解释？
你的评价是不是经得起看？你的信息在不同平台是不是一致？
用户来了以后能不能被接住？

这些做好了，AI 推荐只是结果之一。就算没有 AI，用户看到这些内容，也更容易相信你。

14 AI 搜索优化当然有技术层面

你可能会困惑，说了这么多，为什么没提技术层面的优化动作？

因为技术部分更像是一次性的 AI 搜索优化服务，如果你把 GEO 做成服务，只卖技术包，容易变成一次性低价服务。

比如：检查 robots.txt、提交 sitemap、加结构化数据、修改标题、改页面层级、把图片内容转文字。

这些可以收费，但很难长期收费，做完就结束了。

但内容层面不同，它需要持续运营。所以，小团队做 GEO，不要只卖“帮你加代码、交 sitemap、写 llms.txt”。

这类服务可以作为基础包，但更大的机会在后面：

帮商家整理业务信息，搭建问题型内容，统一全网资料，补充第三方信号，持续监测 AI 怎么描述它。

也就是：技术解决可见性，内容解决可信度，运营解决稳定性。

作者：张艾拉

来源：Fun AI Everyday

GitHub，被 AI 打穿了

青瓜传媒 — Fri, 05 Jun 2026 04:13:51 +0000

今年 2 月 9 日，北京时间深夜，全球数以千万计的开发者打开 GitHub，看到了同一个页面。

不是 404，比 404 更让人焦虑——是那个让所有工程师后背发凉的黄色警告条，加上状态页上一排排从绿色变成红色的指示灯。

github.com 挂了。

API 挂了。

GitHub Actions 挂了。

Git 操作挂了——就连 Copilot 也没能幸免。

那一晚，有人的 CI/CD 流水线在最关键的节点停摆，有人的自动化部署卡在了半空中，还有人在等待一个迟迟无法合并的 PR——背后是一个等待上线的功能，等待的是真实用户。

事后 GitHub 发布了事故报告。根本原因，用技术语言说，是「一个负责认证和用户管理的，核心数据库集群过载」。但这几个字背后藏着一条触目惊心的触发链——

两天前，工程团队为了尽快给用户推送一个新模型，把一个「用户设置缓存」的刷新时间从 12 小时改成了 2 小时。就是这一个配置数字的改动。

结果，本来分散在 12 小时内完成的缓存重写，被压缩进了 2 小时，形成了一次密集的「缓存重写风暴」，异步任务队列被瞬间打爆，共享基础设施组件崩溃，连锁反应蔓延到了负责代理 HTTPS Git 操作的服务，最终导致整个平台的连接耗尽。

一个数字，从 12 改到 2。

GitHub，是被自己改的一个配置打穿的。

但如果你只看到这一个配置改动，那你大概错过了这个故事最重要的部分。

01 不是一次意外，是十次意外

2 月 9 日的事故，不是一个孤立事件。

事实上，2026 年的前三个月，GitHub 经历了至少 8 次重大事故。2 月份单月就有 37 次大大小小的故障记录。GitHub 的 CTO Vlad Fedorov 后来在博客里承认，这两个月 GitHub 没能维持它向企业客户承诺的「三个九」——99.9% 可用性。

翻开这两个月的故障档案，你会发现一个奇特的规律：每一次事故，看起来都是不同的原因。

2 月 2 日：Azure 计算提供商出问题，GitHub Actions 停摆近 4 小时，Copilot 编码代理、CodeQL、Dependabot 全部受牵连。

2 月 9 日：缓存重写风暴，认证数据库过载。

3 月 5 日：Redis 集群故障，GitHub Actions 95% 的工作流无法在 5 分钟内启动，平均延迟 30 分钟。

3 月 18 日：Webhook 延迟飙升到正常水平的 32 倍。

每一次看起来都是「意外」，每一次的直接原因都不一样。但 Fedorov 的解释把它们串成了同一个故事。他说，这些事故背后有三个共同的结构性原因：「快速的负载增长、服务之间的紧耦合导致局部故障扩散，以及系统缺乏对异常客户端的流量保护能力。」

用工程师的话说，GitHub 的地基，已经开始在新负载的重压下出现裂缝。

而这个「新负载」，有一个具体的名字。

02 每周 2.75 亿次提交

关键数据

2025 年全年 commit 总量：约 10 亿次

2026 年单周 commit 量：2.75 亿次

按此速度，2026 年全年预计：140 亿次（同比增长 14 倍）

GitHub Actions 计算量：2023 年每周 5 亿分钟 → 2025 年 10 亿 → 2026 年初某周 21 亿分钟

如果你是 GitHub 的基础设施工程师，2025 年和 2026 年的监控仪表盘对比，大概会让你目瞪口呆。

2025 年全年，GitHub 处理了大约 10 亿次代码提交。这个数字本身已经很大了，是 GitHub 平台多年积累的结果。但到了 2026 年，单周的提交量就达到了 2.75 亿次。换算一下——如果按这个速度走完全年，2026 年的总提交量将接近 140 亿次，是 2025 年全年的整整 14 倍。

这不是一条平滑增长的曲线，而是一道陡坡。GitHub 的 Actions 计算量变化更能说明问题：2023 年每周消耗 5 亿分钟，2025 年翻倍到 10 亿，然后在 2026 年初的某一周，直接飙到了 21 亿分钟。

是什么在疯狂提交代码？

不是人类开发者。

GitHub 的数据显示，AI Agent 正在成为这个平台上最活跃的「用户」。Claude Code 单独一个工具，现在贡献了 GitHub 所有公开仓库提交量的 4.5%。每周 260 万次提交，而在 2025 年 9 月底，这个数字还只有 10 万——三个月内增长了 25 倍。

AI Agent 开启的 PR 数量同样在爆炸。2025 年 9 月，AI 生成的 PR 大约是每月 400 万个，到 2026 年 3 月，这个数字跳到了 1700 万——四倍多，半年内。

有一个画面可以帮你理解这意味着什么。

以前，GitHub 的「用户」主要是人类程序员。他们白天工作，晚上睡觉，周末休息，每次提交会思考，会犹豫，手速有上限。系统的负载跟着人类的作息走，有峰谷，可以预测。

现在，越来越多的「用户」是 AI Agent。它们不睡觉，不休息，不犹豫，一个任务可以同时开多个并行的 Agent，每个 Agent 每小时的提交量，轻松超过一个真实工程师一周的工作量。更重要的是，它们不只是在提交代码，还在不断创建新仓库——把仓库当成工作流的「输出产物」，而不是人类的「工作空间」。

GitHub 的基础设施工程师们，面对的已经不是一个流量更大的同类问题，而是一个性质完全不同的问题。

03 Copilot 的钱不够烧了

故障频发只是问题的一面，GitHub 还有另一个更让人头疼的麻烦——算账的时候发现亏了。

Copilot 最初的定价逻辑，建立在一个合理的假设上：用户主要是「辅助补全」式的使用，每次交互是短暂的，计算量可预测。个人版每月 10 美元，商业版每月 19 美元，按座位收费，这个模型在过去几年里运转良好。

然后，Agentic AI 来了。

Agentic 工作流和传统补全是两个物种。标准的代码补全，请求是线性的、可预测的，计算周期短暂。而一个 Agentic 编码 session，可能运行几个小时，同时启动多个并行线程，进行多步推理、自我纠错、跨仓库重构——一个 session 消耗的 token 量，轻松超过一个普通用户一整月的订阅费用。

GitHub 面对的局面是，少数重度 Agentic 用户，正在用几美元的月费消耗相当于几百美元的计算资源。

面对这个局面，GitHub 的反应很直接——先控流，再改价。

今年年初开始，GitHub 对 Copilot 启动了两套并行限流机制：session 时长上限和每周使用量上限，两个维度都按照 token 消耗量乘以模型计算权重来算。与此同时，部分个人 Copilot 套餐暂停了新用户注册。

6 月 1 日，GitHub 完成了更根本的定价改革：Copilot 全面切换按用量计费，用「AI Credits」取代原来的套餐费用，1 个 AI Credit 等于 1 美分，使用量按 token 消耗实时计算。

按座位收费的时代，在 Agentic AI 面前，走到了终点。

这个转变不只是 GitHub 的烦恼。这是整个 AI 工具行业在 2026 年正在经历的一次集体定价危机——当 AI 开始替代人类执行完整的工作流，而不只是「辅助」人类工作时，所有基于「每人每月」的订阅逻辑都会失效。

04 30 倍，不是 10 倍

回到基础设施问题。GitHub 到底准备怎么应对这个「14 倍增长」？

这里有一个细节，能说明问题的严峻程度：

2025 年 12 月下旬，Agentic 工作流突然开始加速。GitHub 的工程师们意识到，10 倍不够。到 2026 年 2 月，也就是那次严重停机之后，GitHub 宣布需要按照今天规模的 30 倍重新设计架构。

不是扩容，是重新设计。

这两个词的区别很大。扩容是把现有的机器变多、把现有的数据库加内存——方向不变，只是规模变大。重新设计意味着，现有的架构假设在 30 倍规模下会系统性失效，必须从底层重新思考服务拆分、数据流、故障隔离的方式。

GitHub 披露的具体方向包括，解耦关键服务以防止级联失败、引入背压机制和流量降级能力、为热点服务部署独立主机、消除单点故障，以及更完善的变更管理——避免「把缓存 TTL 从 12 小时改到 2 小时」这种操作在没有充分压测的情况下直接上线。

值得注意的是，GitHub 并不孤单。

Stripe 已经遇到了 AI Agent 批量创建账户的问题，AWS 正在构建 Agent 专用的身份系统、日志系统和生产控制机制。这些动作不是未雨绸缪，而是监控仪表盘上已经出现了它们不得不解决的信号。

GitHub 只是第一个被打穿的——因为它在 AI 工具链的最核心。

05 代码仓库，正在变成 AI 的排气管

停下来想一想这整件事的性质。

GitHub 是什么？最直观的回答是，它是程序员存代码的地方。但更深一层，它是人类软件协作的基础设施——提交记录是协作的轨迹，PR 是讨论的容器，Issues 是意图的留存，Action 是执行的管道。整套系统，是为人类的工作节奏、思维方式和协作模式设计的。

AI Agent 改变了这一切。

当一个 AI Agent 一天可以提交几百次代码，每一次「提交」背后没有人类的思考和权衡，只有一个任务循环的进度步骤——代码仓库还是「协作的容器」吗？

当 AI 工具自动生成仓库、自动开 PR、自动跑 CI、自动 merge——开发者还是这个流程的主体，还是说他们已经退化成了「审核者」甚至「旁观者」？

GitHub CTO 在描述这次危机时，用了「负载快速增长」这个词。但这个词很可能低估了问题的本质——这不只是量的增长，是使用方式的质变。在旧模型里，GitHub 是「开发者的工具」；在新模型里，GitHub 正在变成「AI 的排气管」，一个自动化工作流的输出管道。

这对 GitHub 意味着什么，其实还没有答案。30 倍扩容能解决流量问题，但解决不了商业模式的再定义，也解决不了「谁是我的真正用户」这个身份问题。

最近有一个颇为意味深长的现象：GitHub 在停机之后开了大量工程博客，非常详细地描述了每一次事故的根本原因，几乎达到了令人意外的透明程度。有人认为这是 GitHub 在主动建立信任，也有人认为这是在以透明度换取开发者社区的耐心——因为接下来的重构期，还会有更多不稳定。

一个平台，在被自己的成功打穿之后，需要把自己拆开重建——而这个过程本身，也是一次能不能撑住的考验。

2 月 9 日那晚，那个等待 PR 合并的工程师，大概最终还是等来了绿灯。但他可能没有意识到，让他等待的那次宕机，不是 GitHub 的一次意外，而是整个软件开发行业进入新时代的一声响动。

作者：宇航猿

来源：极客公园

世界杯上的广告，都是AI做的？

青瓜传媒 — Thu, 04 Jun 2026 05:50:47 +0000

AI技术的发展，正在改变传统的营销玩法和思路。

前段时间，脉动官宣成为阿根廷国家队中国区赞助商，并推出了一支包含梅西、德保罗等出镜的全新广告片——值得关注的是，片中的球员形象并非实拍，而是完全由生成式AI完成。

以防大家没有看过，我们在此插入一下这支广告片：

通常来说，体育营销有一条「铁律」，花1块钱买赞助权益，就要花2块钱甚至更多去做激活。

这些激活预算往往被分为两部分，大头是渠道采买和分发，另一部分则死死卡在内容的「制作执行」上——巨星权益的激活与实拍带来的差旅消耗、档期协调与沟通成本，常常成为最不可控的变量。

而生成式AI的入局，则在这条链路上拉开了一条新口子。

美国作家雷蒙德·卡佛在谈论小说创作时，曾提及自己墙上贴着摘抄契诃夫的一句话：「….突然，他们什么都看清楚了。」卡佛认为，在看清楚这一行为背后，包含了很多之前、之中和之后的中间地带，意味着可以填充和想象的空间。

那么，当生成式AI在体育营销中变得越来越普遍，我们究竟看清了什么？

技术红利，AI带来了什么

以往，对于脉动这类区域性持权赞助商而言，按照传统路径实拍阿根廷队，需要面对很多后勤挑战和问题。球员档期的协调、球员的配合度等等，构成了制作层面的高昂隐形成本。

生成式AI的介入，在某种程度上抹平了这层物理障碍。

在获得IP方授权的情况下，品牌方可以通过生成式AI产出拥有球星真实形象的广告。据体育产业生态圈了解，阿根廷足协在与脉动协商相关AI内容时，呈现了积极的态度。

毕竟站在IP方的视角，既免去了球员赛前的舟车劳顿，又能配合赞助商产出内容，这无疑是一种商业效率的双赢。

对于这种变革，体育科技公司WSC Sports中国区负责人赵阳对体育产业生态圈表示：「AI最直接的价值就是节省人力物力。作为官方赞助商，在获得IP授权的前提下，是顺理成章的效率提升。」

效率提升的背后，是体育营销链路的连锁反应。尽管目前的AI广告制作仍需时间与人力进行调整、优化，但它确实大幅压缩了传统用工和差旅成本。

理想状态下，这笔从制作端「抠出来」的预算，可以被重新反哺到真正的激活大头中，比如渠道分发、媒体购买和后续传播，让品牌在寸土寸金的世界杯周期中，换取更具性价比的曝光。

况且，营销很多时候拼的就是速度。Fast Company中文版总经理Vicky Wang向体育产业生态圈指出，「体育赛事拥有多市场、多球队的复杂特征，大节点营销必然伴随着极高的多渠道分发需求。」在热点转瞬即逝的世界杯周期，谁能利用AI天然具备的高频迭代能力，更敏捷地将定制化内容推到不同渠道和用户面前，其数据转化往往会带来天壤之别。

品牌敢于尝试的另一个心理支撑，在于普通观众对于画面真伪的低敏感度，「广告本身就是一个快消品。对于普通消费者而言，很难看得出区别。人的存在与不存在，我不觉得会有太多的影响。」赵阳表示。

某种程度上，只要梅西的脸出现在了屏幕上，品牌想要曝光目的就已经达到了。

除了执行与传播，AI也直接冲击了传统的赞助权益体系。

通常情况下，传统赞助类合同都会规定球星实拍的次数和时长等权益。但在生成式AI时代，这种数字肖像的生成权益理论上来说是「无限」的，这势必倒逼条款本身发生改变。

当品牌可以通过AI技术无限放大球星肖像的使用频次时，「AI肖像生成与二创权限」也会成为未来赞助合同谈判桌上的重点。

在赵阳看来，这种「无限」不但不会让顶级IP掉价，反而会带来正向溢价：「品牌方或IP方也会意识到，品牌可以围绕我做更多的内容。因此，IP方很可能在现有的版权费或赞助费基础上，浮动一定的费用，要求品牌多交钱来获取这种数字内容的生产权。」

但我们也不难推断，硬币的反面将随之出现：随着数字版权的口子越开越大，线上内容的膨胀不可避免。此时，具备排他性的实体资源，反而会因为其不可复制的稀缺性被推向价格高位。

「如果AI授权可以代替更多的明星实拍，那么真正走向现场、体验真实的实体资源反而会变得更贵。」Vicky Wang表示。

现实的瓶颈，AI没有带来什么？

尽管AI的概念在体育界已经无处不在，技术更新也日新月异，但一个行业现实是：目前市场上用生成式AI制作的顶级体育广告，并不算铺天盖地。

一个很重要的原因在于，行业内目前并没有出现一个真正出圈或者特别成功的AI广告案例。

「大家还在早期的应用阶段，处于比较谨慎和观望的状态，因为好像也没有谁用了这个东西之后吃到特别大的红利，有一个巨大的ROI。」Vicky Wang对此表示。

这种观望背后有着现实的风控考量——广告是企业对外发声的沟通载体，每一个画面的释出都具备极强的严肃性。

前段时间，网易云音乐的一支AI广告中出现了人物肢体扭曲的诡异画面，立刻招致大众舆论的批评：

在要求严苛的商业体育语境下，这种容错率被压缩得更低。比如，球衣上的赞助商Logo不能变形，也不能出现没有版权的赛事画面或内容。

通用大模型在一致性上的瑕疵，使得很多大品牌不敢轻易拿自己的品牌声誉去冒险。

既然风险依然存在，那品牌为何还要在现阶段试水？

交流过程中，赵阳分享了一个很有意思的现象——在实际合作中，即便机器剪辑和生成技术已经能把视频处理得足够自然流畅，甲方有时反而会提出一些反直觉的特殊要求，「他们希望画面里能刻意体现出一些AI独有的能力，甚至增加一些一看就是机器生成的酷炫、带有轻微科技断层感的元素。」

在这个层面上，生成式AI在某种程度上充当了品牌向外展示「创新精神」的公关工具。

或者说，在这个注意力极度稀缺的时代，「使用AI」这一行为超越了内容本身，成为了营销噱头。

AI带走了什么？

事物发展是具有两面性的。技术带来什么，往往也会带走些什么。

法国著名理论家保罗·维利里奥曾留下一句名言：「当你发明了船，你也随之发明了海难；当你发明了飞机，你也随之发明了空难……每一种技术都携带其自身的负面性，而这种负面性是与技术进步同时被发明出来的。」

当AI让一切视觉画面都变得唾手可得时，它必然也在消解那部分原本由「真实」所构筑的价值感与震撼力。

我们可以看到两个鲜明的体育营销案例。

在前段时间乐高推出的世界杯广告中，姆巴佩、维尼修斯、C罗和梅西被放在了同一个场景里。虽然观众知道这依赖于后期合成，但由于他们确确实实参与了真人实拍，这种由「肉身出镜」所传递的奇妙碰撞感，依然在社交媒体上引发了海量讨论。

图源：LEGO

相似的还有阿迪达斯发布的《野场传说》短片。

片子里请到了一众明星，不仅有梅西、贝林厄姆、亚马尔等现役球星，还有齐达内、贝克汉姆、皮耶罗等传奇球星，以及「甜茶」提莫西·查拉梅、Bad Bunny等娱乐明星。

这部短片同样使用了AI，但AI的职能被严格限定在辅助位置——为老球星「减龄」、致敬一些经典形象或画面。

图源：adidas

很多时候，一个品牌广告的重量并不只是来自创意本身，也来自「这也能行？」「还有他？」等场景所引发的惊奇感。想必乐高和阿迪达斯明白，这种直击人心的触动，正是体育营销能够产生品牌溢价的最迷人之处。

而这，恰恰是生成式AI最可能冲淡的东西。

一位体育AI专家告诉体育产业生态圈：「所有的广告内容都可以分为术与道，前者是渠道和传播，AI的加入丰富甚至颠覆了‘术’；后者是体育营销里特别的、走心的部分，是体育的价值内核，目前的AI做不到增加体育广告的‘道’。」

特别是对于奥运会和世界杯这种顶级大赛，品牌的目标往往不是立刻就要转化，而是要建立长期的品牌势能、唤醒大众的集体记忆与情感共鸣——生成式AI对此能做的暂时不多。

耐克曾经的广告内容之所以让人印象深刻，很大程度上就是出于其独特、走心的价值内核

回看过去，那些堪称里程碑式的顶级体育广告，其尊严与重量恰恰来源于对真实的敬畏，从长远来看，生成式AI对体育营销隐蔽的剥夺，可能是对这种「重量」与价值感的消解。

在体育营销领域，一旦品牌方与行业集体默认「差不多就行」，心安理得地把生成式AI作为纯粹压榨肖像、降低成本、病毒裂变的冰冷工具，其催生的将是一场全行业的审美降级。

在AI时代滚滚向前的巨轮面前，这种关于「真实」的坚守，或许显得有些有气无力，甚至不合时宜。但是我们也必须记住，体育，终究是人类社会中最后一块极度依赖肉身竞技、肉眼可见的真实，以及情感共鸣的圣地。

越是在技术能够轻易创造完美幻觉的十字路口，那些带有瑕疵、笨拙，甚至需要付出真金白银和巨大心力的真实，才越值得被整个体育营销行业加倍珍惜。

作者：ECO氪体

来源：体育产业生态圈

豆包、千问618 购物实测：这届AI还没学会卖货

青瓜传媒 — Thu, 04 Jun 2026 01:10:07 +0000

过去二十年，电商平台争的是“在哪里买”。下一场仗，争的是“谁替你决定买什么”。

这听起来像是用户的福利，但仔细想想，把购物决策交给一个由平台训练、为平台服务的AI。这到底是更好的购物体验，还是一套更隐蔽的流量收割？

豆包、千问赶在618前密集上线购物功能，这个问题开始有了真实的测试场。

强调Next用同一批问题测了豆包和千问，希望通过一系列问题看看真实的AI到底会不会改变我们的购物习惯？

需要提前说明的是，以下都是个案测试，样本有限，结论只能作为观察这个行业的一个窗口，不代表两款产品的全面表现。

01.实测：四组问题，两套逻辑

1、基础推荐：预算3000以内买笔记本

豆包的回答像做过功课的朋友，先给需求过滤（“不适合大型游戏，优先8G+256GSSD”），再推具体商品卡，附价格、配置、适用场景。底部“选购提醒”主动警告“i7独显低价机”多为老款改装陷阱，给出配置底线。最后追问用途，引导对话继续。

点开商品卡可以直接进入下单页面、付费，闭环流程比较顺畅，但不知道这个商家的推荐逻辑，以及是否是推广的结果。点击“查看更多商品”可以选择更多店铺购买，排在首位的是一个直播间。随机测试了几个其他的产品，也基本都是把直播间放在首位，说明在豆包的流量分发逻辑里，直播间的权重高于普通商品列表。

千问识别了需求，按使用场景做了分类推荐，但是信息的结构化呈现不如豆包。而且千问没有直接给产品购买链接，而是进入一个商品结果页，需要用户自己筛选，给的产品差别也比较大，需求匹配不是很准确，比较像用几个关键词搜出来的淘宝结果页。

千问比较人性化的推荐了一个性价比选项：买一个二手的苹果MacBook，但标注售价6237元，明显超出3000元预算，属于明显的预算匹配失控。

小结：豆包把决策做完再给你，但最终购买的落点突出直播间；千问把商城入口打开让你自己决策，整体感觉智能程度相对差一些，同时在多个测试中，千问都推荐了“二手产品”，这倒是体现了阿里的电商生态丰富性优势。

2、反向纠偏：戴森吸尘器比米家贵，但效果一样，对不对？

两家都没有顺着错误前提走。

豆包直接亮出“不对”，回答很明确，且分场景说清楚差异，附实时商品卡，追问是否需要按预算推具体型号。这里有明显的商品推销动作，但还算可接受。

千问用三列对比表格拆解各维度差异，给出分场景结论，纯信息输出，没有挂商品。

小结：两家都合格。但显然豆包的推销意识更强，会主动发现机会卖货。千问的回答更像纯工具，不过也带出了一点AI的通病，过于谨慎，显得不够果断、专业。

3、高客单价复杂决策：预算8000买相机，拍娃

豆包先提炼核心需求，“对焦快、追焦稳、直出好看，优先APS-C微单”，给三套预算方案，每套都有机身价+剩余预算配镜头的建议。商品卡来自官方旗舰店，数据可查。

千问的文字推荐框架完整，品牌推荐（索尼A6400、富士X-T30II）都是专业判断。

但商品卡完全错位，推荐“全新微单方案”挂的是53元的库洛米儿童玩具相机，“二手全画幅方案”挂的是7.78元的玩具相机。其他商品也都价格差异巨大，不太符合8000元预算的需求。

8000元预算，千问推荐了7块8的玩具。语言理解层做对了，商品匹配层断了线。

小结：豆包在高客单价场景下表现相对稳定，推荐逻辑清晰；千问的文字判断没问题，但商品卡匹配出现严重错误，语言层和商品层之间明显没有打通。

4、跨平台比价：同款AirPods4在京东、淘宝、拼多多哪里最划算

这是本次测试最有意思的一组。

千问直接坦白：作为淘宝AI购物助手，没办法帮你查京东和拼多多的实时价格。然后老实地给出淘宝内部的省钱攻略，价格是真实拉取的数据。商品推荐上也比较克制，不是上来就直接推商品链接，而是问过用户之后再推。

豆包给出了一套完整的三平台比价，结论清晰，各平台价格详细，还附上三条差异化购买建议。看起来很专业。

但可能都是骗你的：

第一，豆包既没有接入京东，也没有接入拼多多，这套比价数据是搜索相关资料后由模型生成的，不是实时拉取的。以“淘宝普通版636元（88VIP+券+国补）”为例，这是叠加多重优惠后的理论最低价，普通用户实际上拿不到。

第二，它又开始主动卖货了，答案底部挂的商品卡是自家抖音商城的AirPods 4，和需求里让它分析的三个平台没有任何关系。再次体现了强推销逻辑。

千问说“比不了”，诚实的说出了局限。豆包给了答案，但用户看到一套完整的比价表，会自然地以为这是实时真实数据，而实际上可能是一个幻觉。在购物决策这件事上，一个编出来的答案比没有答案更危险。

小结：这组测试最能看出两家的底层策略差异，也明显的反映了生态的局限性。这种移动互联网时代的“花园围墙”在AI时代依然无解。有意思的是，豆包推销抖音电商产品的意识更激进，有机会就往购买路径上引；千问反而更克制，更多时候是给信息、给方向，而不是直接递商品卡。

02.这届AI购物，差在哪里

1、推荐的底层，未必是用户利益

这是所有平台型AI购物共同面临的矛盾，不是技术能解决的问题。

淘宝天猫的核心商业模式是广告和竞价排名。如果千问的推荐真的完全按“最适合用户”排序，大量付费商家的广告投入就失去了意义，整个生态的商业逻辑就断了。已有媒体实测发现，千问推荐的商品高度集中在付费权重更高的商家范围里，销量上万的高性价比平价款被压到了数十位之后。

豆包同样如此。它的推荐池是抖音商城，商品卡点进去首先出现的是直播间，这不是巧合，而是字节电商流量分发逻辑的体现。AI推荐的背后，是平台希望你进入哪个消费场景。

传统搜索结果里，广告和自然结果之间还有一个“广告”标签。AI推荐说的是“根据你的需求为你精选”，用户几乎无法分辨推荐背后是算法还是商业。包装越自然，越值得警惕。

2、AI做了决策，但没有管住全程

豆包在推荐卡片这一层做了不错的过滤，但点开“查看更多商品”之后，预算约束消失了，3000元预算的笔记本测试里，¥3739的新款和¥4499的高配版照样出现。千问在预算匹配上同样失控，MacBook Air那张价格高达6237元的商品卡就是例证。

这暴露了当前AI购物产品共同的工程短板：AI的决策层和平台的商品召回层之间，没有打通。AI理解了用户需求，给出了有判断的推荐，但一旦用户离开这个推荐卡片，就切换回了传统电商的逻辑，按销量、按广告权重、按平台利益来排序。AI只影响了购物链路的第一步，没有影响后面的每一步。

更根本的问题是：商品数据的标准化和实时同步本身就是一个巨大的工程难题。豆包的比价数据依赖模型生成而非实时拉取，千问的商品卡偶尔错误匹配到儿童玩具，本质上都指向同一件事。在电商这个高度依赖实时库存、实时价格、实时促销信息的场景里，大模型的知识更新速度还跟不上商品世界的变化速度。

3、对话购物的效率，还没有超过搜索

AI购物的核心承诺是用自然语言表达需求，比输入关键词更高效。但从测试结果来看，这个承诺主要在“需求明确+标品+决策简单”的场景下成立。

问“预算3000的笔记本”，AI能给出不错的回答。但真实的购物决策往往不是这样的，用户的需求是模糊的，比较的维度是多维的，信任的建立需要时间。当豆包给你推荐一台相机但你不知道商品卡的来源是否可信，当千问的比价只覆盖淘宝一个平台，用户会本能地打开另一个App去交叉验证，这时候AI购物不但没有提升效率，反而多了一个确认步骤。

03.618：入口之争，但主战场不在这里

回到最初的问题：这届AI购物，会改变618的格局吗？

答案大概率是：不会，至少今年不会。

功能层面，无论是豆包还是千问，目前跑得比较顺滑的还是外卖、标品这类低决策成本的品类。618的主战场，家电、手机、电脑、服装等这些高决策成本、强比价需求、重信任背书的品类，AI推荐的可靠性和用户的信任度，还远没到可以“代劳”的程度。

用户习惯层面，从搜索式购物切换到对话式购物，是一次认知方式的迁移，不是一次App更新能完成的事。大多数用户今年618，依然会打开熟悉的购物App，按熟悉的方式比价下单。AI购物的尝鲜者，还是少数。

一些潜在的需求可能在对话的过程中被激发，但是用户是直接在豆包、千问里完成闭环，还是再去购物App比价，还不好说。

所以今年618的AI购物，更准确的定位是：一次公开的压测，一个象征意义的节点。各家用这个窗口验证技术路线、测试用户接受度、跑通支付闭环，为真正意义上的AI购物时代做准备。

真正的AI购物，要解决的问题还很多：推荐数据的实时性和准确性、跨平台比价的可能性及可信度、个性化推荐和商业利益之间的透明边界、高决策成本品类的信任机制……这些问题，靠功能迭代能解决一部分，但更多的是需要整个行业重建用户和平台之间的信任契约。

那个时刻，还没到来。

作者：新见，编辑：小白

来源：强调Next

Chatbot烧钱三年，还是AI时代的“新大陆”吗？

青瓜传媒 — Wed, 03 Jun 2026 01:35:49 +0000

过去几年，似乎所有人都拿着同一张”地图”在AI行业里寻找”新大陆”。

这张”地图”诞生于2022年底。彼时，ChatGPT上线仅两个月就月活破亿，成为史上增长最快的消费级产品。似乎大家都觉得找到了一张”藏宝图”：AI时代会和移动互联网时代一样，价值最终汇聚在一个新的超级入口——Chatbot里。

于是，业内纷纷认定谁先做出最强的Chatbot，就等于抢占了下一个时代。几年过去，押注Chatbot的那批玩家，却发现这张”地图”没有带领他们找到”新大陆”。

OpenAI打造了一个周活跃用户逾9亿的Chatbot，但还在亏钱。据《The Information》，截至2026年Q1，公司每收进1美元，就要赔1.22美元。回到国内看，Chatbot的C端变现也还在探索中。5月4日，国内月活第一的Chatbot豆包更新了三档付费方案，基础功能仍免费。当天”豆包付费”冲上热搜前三，用户反响较大。

走在另一条路上的Anthropic，反而看到了”新大陆”的曙光。2026年4月，Anthropic的年化收入突破300亿美元，反超OpenAI同期的约250亿美元。两家公司的收入结构截然不同。据美国企业支付平台Ramp数据，Anthropic约85%的收入来自企业客户，而OpenAI约85%的收入来自ChatGPT的个人订阅。

早在去年4月，Anthropic研究了约450万条Claude对话记录，发现涉及情感交流的对话内容仅占2.9%，绝大多数用途都是与工作相关。整天和AI聊个不停的人还是极少数，绝大多数人是把AI当作工作助理。一个月后，专注AI coding的Claude Code正式上线，到2026年初其年化收入已达25亿美元。由OpenClaw引爆的”Agent热”自年初延续至今也说明，用户要的不是一个更会聊天的对话框，而是一个真的能帮自己把活干完的执行者。

大家开始意识到，Chatbot只是通向AGI的过道，不是终点。

DAU越大，怎么越亏本？

Chatbot这种产品形态在过去几年成为焦点，很大程度上是因为ChatGPT带来的震撼。它让普通人第一次通过熟悉的对话框，看见了AI通用能力的形状。

而这个对话框和搜索框实在是太过相似了：一个输入栏，敲字、回车，出结果。资本市场对Chatbot的最初想象，就建在这个相似性上。互联网时代的大生意很多都是基于入口，比如谷歌是搜索入口，Facebook是社交入口。

当ChatGPT看起来像下一个搜索框，市场就会本能地用上一个剧本来构建未来：AI时代的超级入口出现了，谁占住就是最后赢家。

但是几年过去，市场开始发现事情没有按照剧本来走。据QuestMobile数据，截至2025年9月，原生App用户规模2.87亿，Q3复合增长率3.4%；In-App AI用户规模7.06亿，Q3复合增长率9.3%，后者的规模和增速都比前者大。也就是说，AI似乎不需要一个新的独立的容器。

“超级入口”是PC和移动互联网时代的产物，其建立的前提是信息或服务必须经过某个统一的容器才能到达用户。但AI时代是否需要一个新的独立入口，依然存疑。这是因为AI不是分发层的革命，而是能力层的革命，它可以像电力渗到所有现有产品里。

另一个在互联网时代的铁律，也在Chatbot上失灵了。过去市场普遍认可，流量就等于价值，那么DAU越大，生意就越大。这条铁律靠的是几条机制的叠加：边际成本接近零、网络效应、数据飞轮。

传统互联网产品的边际成本几乎为零，一次搜索或网页加载消耗的宽带和服务器开销小到可以忽略不计，多服务一个用户基本没有增量成本。Chatbot是反过来的，每一次模型推理都要烧掉真金白银的算力，用的人越多，成本反而就越高。

以OpenAI为例，用户增长很快，同时烧钱也很快。HSBC分析师在2025年底测算，为支撑其庞大的算力需求，OpenAI到2030年前需要额外筹集至少2070亿美元，并认为OpenAI在未来十年内仍将持续亏损，需要不断通过融资来补贴用户和支付给数据中心所有者的高昂费用。

再看网络效应，在传统互联网产品的使用中，第N个用户的加入会让前面N-1个用户的体验变得更好。比如，多一个人玩手游，游戏队伍的匹配就能更快；多一个商家在电商App里，所有买家能选择的东西就多一点。但是，用户A写了一千句prompt，对用户B在Chatbot进行的对话没有影响。

在Chatbot上，数据飞轮的转动也变弱。抖音、淘宝、美团能越用体验越好，靠的是用户的行为数据等反喂推荐算法。但Chatbot的驱动靠的是大模型的预训练，用户的对话数据要回到模型训练里，链路长、采集成本高、噪音大，且涉及隐私和延迟限制。况且，单个Chatbot的用户对话数据也对模型能力提升有限。

据晚点LatePost报道，2025年初，字节跳动CEO梁汝波曾在集团全员会上表述，豆包没显出”越多人用越好用”的互联网产品特性。这家以增长引擎著称的公司，也承认它的引擎在Chatbot这盘生意上碰壁。

说到底，Chatbot是一个长得像互联网产品，但底层经济学完全不是互联网产品的东西。

低壁垒生意

目前ChatGPT的商业化路径接近于传统互联网公司的”入口+流量”逻辑，即先建立最大规模的通用用户入口，再在这个入口上分层变现，比如个人订阅、广告、电商佣金等等。

ChatGPT最先尝试的订阅模式还没有跑通。2025年ChatGPT的9亿周活跃用户中，个人订阅用户约5000万，占比仅约5%。德银的研报指出，自2025年5月起，欧洲的ChatGPT消费者支出就已经出现停滞，暗示ChatGPT付费用户增长可能触顶。

到了中国市场，这个困难还要乘以3到4倍。据媒体综合a16z、Bessemer等机构数据，北美市场AI产品的C端付费率约在15%—40%之间，而中国市场仅为3%—13%，差距达到3至4倍。

在”免费+广告”的互联网模式的长期影响下，国内用户没有养成为独立软件付费的习惯。今年5月豆包试水订阅，“豆包笨还收费”冲上热搜。用户的负反馈正说明，国内大部分用户认定Chatbot应该是免费的。另据《36氪》最新消息，豆包要在六月底正式收费。顶着差评也要做，说明chatbot在巨额投入后，到了要证明自身商业可行性的时候了。

订阅模式之难，本质上是因为Chatbot的用户迁移成本低，是一门低壁垒生意。

互联网产品的护城河之一是用户迁移成本。比如在微信的熟人关系链、在淘宝的交易喜好、本地商户在美团搭建的服务网络等等。

Chatbot的切换成本却很低。Chatbot的默认状态是用户随时可以离开和回来，且同时用两三个Chatbot也可以。Chatbot也不需要配置、学习、导入数据等，普通用户掌握的提问方式在所有Chatbot里通用。

回过头看，ChatGPT给世界带的震撼其实来自于模型本身，Chatbot真正的护城河是模型能力。花旗Innovation Lab今年3月对1800名用户的调查也显示，在愿意付费的用户中，63%将”获取更先进模型”列为首要驱动因素。

三年前，GPT-4是用户能使用到的最强模型，能力代差肉眼可见。但如今各家的模型能力都在迭代变强，随着模型能力正在基础设施化，阶段性优势已经不明显最强大模型，保质期越来越短了。当模型能力差距收窄到普通用户感知不到，Chatbot就可能退化成一个”哪个免费用哪个”的性价比比赛。

在一门需要持续烧钱、用户随时可以走，护城河正受到冲击的生意上，很难挖到“金子”。

注意力经济失效

OpenAI的CEO Sam Altman曾经把广告称为ChatGPT的”last resort（最后的补救方法）”。

在付费订阅这条路堵住之后，ChatGPT也不再克制。今年2月起，ChatGPT开始在免费版和最低价付费版中向用户展示广告。到了5月5日，OpenAI正式推出自助广告平台Ads Manager，让广告主直接或通过代理商在ChatGPT上投放广告。

ChatGPT走这条路参照的是搜索广告。谷歌就是靠搜索广告挣得盆满钵满。ChatGPT面世前一年，谷歌2021年广告收入2080亿美元，占其母公司Alphabet总收入的81%。

2023年2月，微软整合ChatGPT推出New Bing。Bing主页原本细长的搜索栏被一个写着”ask me anything”的大对话框取代，相当于把搜索引擎的入口让给了Chatbot。微软CEO Satya Nadella曾表示，”we’re going to make Google dance（我们要让Google跳舞）。”微软公开向谷歌宣战，正是盯上了Chatbot广告变现的潜力。

但是，Chatbot的搜索广告潜力并没有大家预想得那么高。数据服务商Statcounter的数据显示，从2024年到2026年4月，Bing全球搜索份额从约3.4%仅涨到约5.1%。

搜索广告成立的前提是，用户搜索时是有明确的购买意图的；搜索结果是列表，可以多塞几条广告位；用户不期待答案是正确的，只要相关就行。

这三个前提Chatbot都不具备。用户与Chatbot的交互更多是回答、解释、情绪回应等等，天然没有购买意图。其次，Chatbot给出的是一条答案，没有多塞一条广告的版面。

这也是为什么OpenAI的广告策略最初是CPM（按每千次曝光付费），后来引入了CPC（按点击量付费）。据《The Information》报道，ChatGPT最初目标CPM高达60美元，对标流媒体电视等高端广告位，但部分广告主实际成交CPM仅为15至25美元，可能反映出竞标广告位的买家太少。广告主习惯了按效果付费和精准定向，而Chatbot的对话式交互特点难以套用传统数字广告的体系。

更为关键的是，用户期待Chatbot给出的是正确的答案。一旦答案里有广告，用户对每一句回答的信任都会被打折，而这种信任本身就是产品的核心，也让广告主觉得无法转化。

Perplexity已经证实这条路很难走通。2024年，这家由Chatbot驱动的搜索引擎公司推出了由品牌赞助的后续问题（Sponsored Follow-up Questions）等广告形式。然而，当年Perplexity的广告收入约2万美元，占当年总收入3400万美元的不到0.1%。今年2月，Perplexity正式放弃广告模式。

本质上，Chatbot打破了移动互联网时代的注意力经济能变现的依赖路径。在过去，注意力是稀缺的，内容供给是廉价的。但是Chatbot把这个结构反过来了，每一次回答都要花费算力，供给变得昂贵。与此同时，一次会话只占几分钟，用户问完即走，注意力反而变得不那么值钱。一门生意的供给越贵、注意力越短，它就越难靠广告活下去。

但是，AI广告不是没有机会。截至2025年Q3，谷歌AI Overviews已覆盖超20亿用户，AI Mode日活超7500万人，这两个功能都嵌入了广告。同期，谷歌母公司Alphabet交出史上首个破千亿美元营收季度，其中Google搜索及其他（Google Search & other）同比增长15%至566亿美元。这是AI广告目前被证明能跑通的一个方法，把AI嵌进已经成立的商业系统里，而不是另起一个对话框。

目前，国内的Chatbot还没有接入广告的尝试。投资人庄明浩在最近一期播客中和嘉宾讨论了背后原因，他们指出，现有广告系统是基于搜索的关键词匹配的，要和与用户的输入形成关联，这个过程涉及到数据脱敏问题，会面临非常大的监管压力。

此外，Chatbot还在尝试电商购物变现这条路径。继阿里千问接入淘宝开通AI购物功能后，据《36氪》报道，豆包接下来也将打通抖音电商，试图打通AI购物闭环。早在去年9月，ChatGPT就推出过”即时结账”（Instant Checkout）功能，却在5个月后取消。和搜索广告相似，在Chatbot购物也面临消费需求和用户信任等问题。不过，ChatGPT接入的是松散的第三方电商，千问、豆包接入的是自家完整的电商生态，国内Chatbot能否走通这条路还是个开放问题。

Chatbot是AI发展的中间形态

2026年Q1，ChatGPT的月活增速是6.78%。而一年前的同期，这个数字是18%。

国内的情况也是如此。QuestMobile数据显示，截止到2026年3月，AI原生APP月活用户规模已达到4.4亿，行业月人均使用次数和人均使用时长分别为87.1次、173.3分钟。若按此推算，整个行业内用户日均使用时长不到6分钟。同一份报告里，抖音的人均日使用时长是1.5小时，是前者的十几倍。

Chatbot的发展潜力，可能被高估了。Chatbot的价值在于提供”通用对话”。这意味着，AI的很多能力无法在这样的产品形态里体现出来。

Chatbot结构性地把AI的能力关在了一个回合制的笼子里。NBER一份基于150万条ChatGPT对话的研究显示，用户和Chatbot高达49%的交互属于”询问”（Asking）类。用户问，AI答，会话结束，状态归零。它是被动响应模式，无法跨步骤执行任务、调用外部工具，也无法持续在后台工作。先后在Anthropic和Google就职的姚顺宇最近就在一档播客里感慨，AI的功能如此之强大，但大家只是用他来问问题。

上述NBER的研究还表明，40%的用户和Chatbot的交互开始走向”执行（Doing）”。当用户发现AI能做的事情越来越多，他就会倾向于去发掘它更多的作用。所以，Chatbot的一条演化方向就是”执行（Doing）”。这就意味着Chatbot要长出Agent的能力，比如多步执行、调用工具、后台运行、有记忆、有目标等等。

但悖论在于，一旦它长出这些能力，它就不再是一个纯粹的Chatbot了。而且更残酷的现实是，不是所有Chatbot都能完成这个蜕变，毕竟这要求底层模型、Agent架构、生态接入等能力同时升级。

更远的想象是，AI的未来可能连一个独立的原生App都不需要。

比如，AI会嵌入现有的App。OpenClaw的接入路径已经在预示这件事。它的interface是大家每天都在用的微信、WhatsApp等，用户在这些软件里向给同事发消息一样发给Agent。

又或者，AI会嵌入操作系统。比如苹果公司在今年4月面向iPhone、iPad和Mac推出的个人智能化系统Apple Intelligence。甚至AI还会嵌进硬件，就在去年9月，Meta发布了带显示屏的AI眼镜Ray-Ban Display，用户不需要打开App或者手机。

行业曾经以为，只有原生AI应用是未来。但是当AI开始嵌入社交App，嵌入OS，嵌入各种硬件，AI真正落地的方式，出现了更多的可能性。

在AI时代，如果还拿着”旧地图”，就找不到”新大陆”。只有更新地图，才可能找到一块真正有价值的大陆。

作者：之丰

来源：深流研究所

2026 AI智能体指南

青瓜传媒 — Tue, 02 Jun 2026 01:19:23 +0000

每天都有新框架、新榜单、新的“十倍效能”发布。问题不再是“我该如何跟上节奏”，而变成了：哪些是真正的信号，哪些只是披着紧迫感外衣的噪音。

每一份路线图在发布一个月后就会过时。你上个季度精通的框架，现在已成“遗产”。你费尽心机优化的跑分，也早已被刷榜和更替。他们教导说要遵循传统路径：按部就班地学习技术栈、积累工作年限、缓慢晋升。但AI重写了这幅蓝图。现在，任何拥有精准提示词和出色审美的人，都能在一个开发周期（sprint）内交付曾经需要两年经验的工程师才能完成的工作。

经验依然重要。没有什么能取代亲眼目睹系统崩溃、在凌晨两点排查内存泄漏，或者力排众议选择稳健方案而非投机方案并最终被证明正确的经历。这种“审美力”是可以产生复利的。而不再像以前那样还能产生复利的是：掌握本周最新框架的API接口。六个月后，一切都会变样。两年后那些胜出的人，是早期就选择了持久的“原语”（primitives）并任由其他喧嚣随风而去的人。

我在这个领域深耕了两年，拿到了多份年薪25万美元以上的录用通知，目前在一家处于隐身模式的初创公司担任技术负责人。如果你问我“现在究竟该关注什么”，这就是我的回答。

这不是一份路线图。智能体领域目前还没有终点。顶级实验室都在公开迭代，向数百万用户推送可能退化的版本，撰写事后分析，实时打补丁。如果Claude Code背后的团队能发布一个性能下降47%的版本，且直到社区反馈才发现，那么所谓“底层有稳定地图”的想法纯属虚构。每个人都在摸着石头过河。初创公司之所以能蓬勃发展，是因为巨头们同样也感到迷茫。非编程人员正通过与智能体结对，在周五就把机器学习博士周二还认为不可能实现的东西交付上线。

这个时刻最有趣的一点在于它对“资历”的冲击。传统路径优化的是你的资历：学位、初级职位、高级职位、资深职位，以及职级的缓慢累积。在底层技术纹丝不动的时代，这很合理。但现在，每个人脚下的土地都在以同样的速度移动。一个在公开场合发布智能体Demo的22岁年轻人，与一个35岁的高级工程师之间的差距，不再是十年积累的技术栈掌控力。22岁年轻人的画布与资深工程师一样白，而对两者来说，真正能产生复利的是交付的意愿，以及那一小部分在单一季度内不会过时的“原语”。

这正是整篇文章立论的基础。接下来的内容将为你提供一套思考方式，帮你识别哪些原语值得关注，哪些发布可以略过。取你所需即可。

真正有效的过滤器

你跟不上每周的发布节奏。你也不该去试。你需要的是一个过滤器，而不是信息流。

在过去的18个月里，有五个测试标准经受住了考验。在让任何新技术进入你的技术栈之前，先用它们过一遍。

两年后这东西还重要吗？如果它只是前沿模型的套壳、一个CLI参数，或是“某某领域的Devin”，答案几乎否定。如果它是一个原语（如协议、内存模式、沙箱方案），答案往往是肯定的。套壳应用的半衰期很短，而原语的半衰期长达数年。

你尊重的人是否用它造出了真实的东西，并进行了诚实的记录？营销软文不算数，事后复盘才算。一篇名为《我们在生产环境中尝试了X，结果这些地方崩了》的博客，价值抵得上十个发布公告。在这个领域，真正有价值的信号总是由那些为其搭进了一整个周末的人写出来的。

采用它是否需要你扔掉现有的链路追踪、重试机制、配置或鉴权？如果是，那它就是一个试图成为平台的框架。这类“框架平台”的死亡率高达90%。优秀的原语应该像插件一样嵌入你现有的系统，而不是强迫你整体搬迁。

跳过它六个月，代价是什么？对于大多数发布来说，代价为零。六个月后你会了解得更透彻，胜出的版本也会更清晰。这个测试能让你毫无焦虑地过滤掉90%的发布，但大多数人拒绝执行，因为他们觉得跳过就是掉队。其实不然。

你是否能衡量它是否真的对智能体有帮助？如果不能，你就是在瞎猜。没有评估集（evals）的团队全凭感觉运行，最后交付的是退化版本。有评估集的团队则可以让数据说话，告诉他们本周在特定任务上，究竟是GPT-5.5还是Opus 4.7更胜一筹。

如果你从这篇文章中只能养成一个习惯，那就是：每当有新事物发布时，写下“如果六个月后要让我相信它很重要，我需要看到什么”。然后到时候再回来核对。大多数情况下，问题会迎刃而解，而你已经把精力花在了那些能产生复利的事情上。

支撑这些测试的核心技能其实很难命名，那就是：甘于在那些你没选的技术面前显得“不酷”。本周在Hacker News上疯传的框架会在接下来的十四天里拥有一大群拥趸，每个人听起来都博学多识。半年后，这些框架有一半将无人维护，而那些拥趸早已转向新欢。那些没有参与其中的人，节省了注意力，留给了那些在热度褪去后依然稳健的“枯燥”事物。这种克制、观察、并说出“六个月后见分晓”的姿态，才是这个领域真正的专业技能。人人都会读发布公告，但几乎没人能做到泰然处之、不为所动。

学什么

概念、模式、事物的轮廓。这些才是能带来复利回报的想法。它们能经受住模型更换、框架迭代和范式转移。深度理解它们，你就能在任何一个周末上手新工具；无视它们，你将永远在重复学习表面肤浅的机制。

上下文工程

过去两年最重要的更名就是“提示词工程”变成了“上下文工程”。这种转变是实质性的，而非表面修饰。

模型不再是你撰写巧妙指令的对象，而是你在每一步都要为其组装“工作上下文”的对象。这个上下文同时包含了系统指令、工具定义（schemas）、检索到的文档、先前的工具输出、暂存区状态以及压缩后的历史记录。智能体的行为，是你投入窗口内的所有信息的“涌现”属性。

请内化这一点：上下文就是状态。每一个不相关的噪音Token都会损耗推理质量。“上下文腐烂”是一个真实的生产故障。在一个包含十个步骤的任务中，执行到第八步时，最初的目标可能已经淹没在工具输出中了。交付可靠智能体的团队会主动进行总结、压缩和修剪。他们会对工具描述进行版本控制。他们缓存静态部分，拒绝缓存变化的部分。他们看待上下文窗口的方式，就像资深工程师看待内存（RAM）一样。

一个直观的感受方式：选取任何生产环境下的智能体，开启完整的追踪日志。看第一步时的上下文，再看第七步时的上下文。数一数有多少Token还在发挥作用。你第一次这么做时会感到汗颜。然后你会去修复它，而同一个智能体在不改变模型或提示词的情况下，可靠性会有显著提升。

如果你想读的相关文章只有一篇的话，那就去看看Anthropic的《AI智能体的有效上下文工程》（Effective Context Engineering for AI Agents）。然后读他们的多智能体研究复盘，那里用数据说明了在规模扩大后，上下文隔离究竟有多重要。

工具设计

工具是智能体与你业务的交汇点。模型根据名称和描述选择工具；根据错误信息进行重试；根据工具的“契约”是否符合LLM的表达擅长点来决定成败。

五个到十个命名得好的工具，胜过二十个平庸的工具。工具名称读起来应该像英语动词短语。描述应包括何时使用以及何时“不”该使用该工具。错误信息应该是模型可以据此采取行动的反馈。“超过最大500 Token限制，请先尝试总结”的反馈，其效果远超“Error: 400 Bad Request”。公开研究中有一支团队报告称，仅通过改写错误信息，就减少了40%的重试循环。

Anthropic的《为智能体编写工具》是很好的起点。之后，请为自己的工具加入监控，观察真实的调用模式。智能体可靠性上的最大突破几乎总是发生在工具侧。人们总是在不断微调提示词，却忽略了真正具备杠杆作用的地方。

编排者-子智能体模式

2024年和2025年关于多智能体的争论最终达成了一致，也就是现在大家都在交付的方案。那种多个智能体并行写入共享状态的“幼稚多智能体系统”会因为错误叠加而惨败。单智能体循环的扩展能力比你想象的更强。而在生产环境中，只有一种多智能体形态行得通：一个编排者智能体将范围极小的、只读的任务委派给隔离的子智能体，然后汇总它们的结果。

这就是Anthropic研究系统的工作机制，也是Claude Code子智能体的工作机制。Spring AI和大多数生产级框架现在都已将这一模式标准化。子智能体获得的是小的且聚焦的上下文，它们不能更改共享状态，只有编排者拥有写入权。

Cognition的《不要构建多智能体》（Don’t Build Multi-Agents）与Anthropic的《我们是如何构建多智能体研究系统的》（How we built our multi-agent research system）看起来截然相反，实则是用不同的话在描述同一件事。两篇都可以读读就看。

默认使用单智能体。只有当单智能体遇到真正的瓶颈——如上下文窗口压力、序列化工具调用的延迟、或者任务异构性确实需要聚焦的上下文时——再考虑“编排者-子智能体”模式。在还没感受到这些痛点之前就做多智能体，只会增加不必要的复杂性。

评估与黄金数据集

每一个交付可靠智能体的团队都有自己的评估体系（evals）。没有评估体系的团队，智能体一定不可靠。这是这个领域杠杆作用最大的一个习惯，也是我见过的所有公司中投入最不足的一环。

有效的做法：收集生产环境中的追踪数据，标注失败案例，将其视为一个回归测试集。每当有新的失败情况出现，就将其加入。对主观部分用“LLM评判”，对其余部分使用精确匹配或程序化检查。在进行任何提示词、模型或工具更改之前，先跑这套测试。Spotify的工程博客提到，他们的评判层在交付前会否决约25%的智能体输出。如果没有它，四分之一的糟糕结果就会直接呈现在用户面前。

让这一概念深入人心的心智模型是：评估就是单元测试，它在底层所有东西都变了的时候确保智能体依然“诚实”。模型更新了、框架发布了破坏性变更、供应商废弃了某个接口，你的评估体系是唯一能告诉你智能体是否还在尽职尽责的东西。如果没有它们，你写的系统其正确性将取决于一个移动目标是否依旧怀有“善意”。

评估框架（如Braintrust、Langfuse evals、LangSmith）都很棒，没有一个是瓶颈。真正的瓶颈是首先要有一个标注好的数据集。从第一天就要开始打造，在扩展任何规模之前就得做这件事。最初的五十个案例用一个下午就能手动标注完。没有任何借口不去做。

文件系统即状态与“思考-行动-观察”循环

对于任何执行真实多步任务的智能体，持久的架构都是：思考、行动、观察、重复。将文件系统或结构化存储作为事实来源。每一次行动都被记录并可回放。Claude Code, Cursor, Devin, Aider, OpenHands, goose。所有人最终都是殊途同归，绝非偶然。

模型是无状态的，但运行架构（harness）必须是有状态的。文件系统是每个开发者都能理解的有状态原语。一旦你接受了这种框架，所有的运行规范（如设置检查点、可恢复性、子智能体验证、沙箱执行）都会随着你对这一模式的严肃对待而自然产生。

这背后深刻的教训是：在任何对得起计算账单的生产级智能体中，运行架构做的工作都要比模型做的多。模型负责选择下一步行动，而运行架构负责验证行动、在沙箱中运行、捕获输出、决定反馈内容、决定何时停止、何时设置检查点、以及何时生成子智能体。换一个质量相当的模型，优秀的运行架构依然能稳定交付；但如果换一个糟糕的运行架构，即便是全世界最好的模型，也会造出一个动不动就忘记自己在干什么的智能体。

如果你正在构建的东西比简单的单步工具调用更复杂，那么运行架构才是你应该投入精力的地方。模型只是其中的一个组件。

MCP的概念理解

不要只学怎么调用MCP服务器，要学习它的模型：即智能体能力、工具和资源之间的清晰分离，以及底层可扩展的鉴权和传输方案。一旦理解了这一点，你看到的任何其他“智能体集成框架”都会显得像是MCP的劣质版本，从而帮你节省评估它们的时间。

现在负责管理它的是Linux基金会，各大模型供应商也都在支持。“AI界的USB-C接口”这个比喻现在听起来更像是陈述事实而非冷嘲热讽。

沙箱作为一种原语

每一个生产级代码智能体都在沙箱内运行。每一个浏览器智能体都曾遭受过间接提示词注入。每一个多租户智能体在某个时间点都曾出现过权限范围Bug。请将沙箱视为基础架构，而不是等客户要求时才添加的功能。

学习基础知识：进程隔离、网络出口控制、密钥作用域、智能体与工具之间的鉴权边界。那些在客户安全审查后才匆忙补救的团队通常会丢掉订单；而那些从第一周就将其内置的团队则能轻松通过企业采购审计。

技术选型

这是2026年4月的具体推荐。这些可能会变，但速度会很慢。请选择虽“枯燥”但稳健的方案。

编排

LangGraph是生产环境的默认选择。大约三分之一运行智能体的大型公司都在使用它。它的抽象方式符合智能体系统的真实形态：类型化状态、条件边、持久工作流、以及人机协同检查点。缺点是啰嗦，优点是这种啰嗦恰恰对应了你在生产环境中真正需要控制的细节。

如果你主要使用TypeScript，Mastra是事实上的首选。它是该生态系统中思维模型最清晰的。

如果你的团队钟情于Pydantic，并且希望将类型安全作为一等公民，那么Pydantic AI是一个合理的选择。它在2025年末发布了v1.0，势头强劲。

对于特定供应商的原生功能（如电脑使用、语音、实时交互），请在LangGraph节点内使用Claude Agent SDK或OpenAI Agents SDK。不要试图让其中任何一个成为异构系统的顶层编排器。它们只在各自的赛道上表现最佳。

协议层

MCP，没别的。将你的工具集成构建为MCP服务器，并以同样的方式消费外部集成。MCP注册中心已经发展到你几乎总能在动手构建之前找到现成服务器的程度。在2026年还去搞自定义的工具管线，纯粹是在交智商税。

记忆

根据自主程度来选择，而不是根据热度。

对话式个性化推荐使用Mem0，用于处理用户偏好和轻量历史。对于状态不断演进且需要实体跟踪的生产级对话系统，选择Zep。当智能体需要在数天或数周的工作中保持连贯性时，选择Letta。大多数团队不需要这些，但需要的团队，非它们不可。

常见的错误是在遇到记忆问题之前就先引入记忆框架。先从上下文窗口能容纳的内容加向量数据库开始。只有当你能清晰描述出一个由记忆系统解决的失败案例时，再去添加它。

观测与评估

Langfuse是开源领域的默认选择。可自托管、MIT协议授权，涵盖了链路追踪、提示词版本控制和基础的“LLM评判”评估。如果你已经是LangChain的用户，LangSmith集成得更紧密。对于需要严格对比的研究型评估工作流，Braintrust是正确之选。如果你在多语言技术栈中需要厂商中立的OpenTelemetry仪表化，OpenLLMetry / Traceloop就是答案。

你需要同时拥有链路追踪和评估。追踪回答的是“智能体实际做了什么？”，评估回答的是“智能体比昨天更好了还是更差了？”缺一不可。盲目运行的代价，是第一天就做好配置成本的十倍。

运行环境与沙箱

通用沙箱代码执行选择E2B。浏览器自动化选择Browserbase（搭配Stagehand）。当你需要真实的操作系统级桌面控制时，使用Anthropic Computer Use。短时间的爆发任务选择Modal。永远不要跑无沙箱的代码。在生产环境下，一个遭受提示词注入攻击的智能体所能造成的破坏，是你绝对不想面对的噩梦。

模型

追逐榜单很累，而且大多没什么用。务实地看，2026年4月的现状是：

Claude Opus 4.7和Sonnet 4.6适用于可靠的工具调用、多步连贯性和优雅的失败恢复。对于大多数工作负载，Sonnet是性价比最高的。GPT-5.4和5.5适用于你需要最强CLI/终端推理能力，或者你深植于OpenAI基础设施的情况。Gemini 2.5和3适用于长上下文或多模态密集的任务。当成本比极致性能更重要时（尤其是针对明确的细分任务），选择DeepSeek-V3.2或Qwen 3.6。

将模型视为可替换的。如果你的智能体只能在某一个模型上运行，那是缺陷，不是护城河。通过评估集来决定部署哪个模型。按季度重新评估，而不是每周。

避开什么

会有人告诉你要学习并使用以下所有内容。不用理会。跳过的代价很低，节省的时间却很多。

* 用于生产环境的AutoGen和AG2。微软的这个框架已转为社区维护，发布停滞，其抽象方式也不符合生产团队的实际需求。做学术探索可以，但不要以此为基础构建产品。

* 做新东西用CrewAI。它无处不在是因为Demo好做。构建真实系统的工程师早已弃之而去。原型开发可以用它，但不要投入身家性命。

* 微软Semantic Kernel，除非你被锁死在微软企业技术栈中，且你的买家很在意这一点。这不是生态系统的发展方向。

* DSPy，除非你正在专门进行大规模提示词程序优化。它有哲学意义，但受众群体较小。它不是通用的智能体框架，不要把它当成是框架。

* 将“独立代码编写智能体”作为你的架构选择。 “代码即行动”是很有趣的研究方向，但目前还不是生产默认模式。如果你选这个，你将面临竞争对手根本遇不到的工具和安全挑战。

* “自主智能体”的推销。 AutoGPT和BabyAGI那一套作为产品形态已经消亡。业界目前公认的诚实框架是“智能体化工程”：受控、有边界、可评估。在2026年还在推销“部署即不管”的自主智能体的人，卖给你的其实是2023年的旧货。

* 智能体应用商店和市场。从2023年就开始展现希望，却从未在企业端真正起势。企业不会购买通用的预置智能体，他们买的是与结果挂钩的垂直领域智能体，或者是自建。不要围绕“应用商店梦”来构建你的商业模式。

* 作为客户去使用横向的“构建任何智能体”的企业平台（如Google Agentspace, AWS Bedrock Agents, Microsoft Copilot Studio等）。它们最终会有用，但目前让人困惑、发布迟缓，且“买还是造”的算账结果依然倾向于自建细分智能体或购买垂直方案。

* 追逐SWE-bench和OSWorld榜单。伯克利的研究人员在2025年证明了几乎所有的公开榜单都可以在不解决底层任务的情况下被刷分。现在的团队将Terminal-Bench 2.0和自有的内部评估视为真正的信号。

* 幼稚的并行多智能体架构。五个智能体通过共享记忆聊天，做Demo很惊艳，生产环境就拉胯。如果你不能在餐巾纸上画出一个带有读写边界的清晰“编排者-子智能体”图解，就不要做。

怎么干

如果你是想应用智能体，而不仅仅是跟风，那么以下步骤行之有效。虽然枯燥，但管用。

选择一个已经能见效的结果。不要搞“登月计划”，也不要搞什么横向的“智能体平台”项目。选一个业务已经关心的可衡量目标：如分流客服工单、起草初审法律意见、筛选潜在线索、生成月度报告。当这个结果发生改变时，智能体才算成功。从第一天起，这就成了你的评估目标。

这一步之所以比什么都重要，是因为它约束了随后的每一个决定。有了具体的目标，“选哪个框架”就不再是哲学问题，你只需选那个能最快交付结果的。 “选哪个模型”也不再是关于榜单的争论，你会选评估集证明在当前任务中最有效的。 “是否需要记忆、子智能体或自定义架构”也不再是思想实验，你只添加那些失败案例明确要求的部分。

在交付任何东西之前，先配置好追踪和评估。选择Langfuse或LangSmith，把它对接好。如果需要，手动构建一个小型的黄金数据集。五十个标注好的例子就足以起步。如果你无法衡量，你就无法改进。

从单智能体循环开始。选LangGraph或Pydantic AI。选Claude Sonnet 4.6或GPT-5作为模型。给智能体三到七个设计良好的工具。将文件系统或数据库作为其状态。先向小范围受众发布，观察追踪日志。

把智能体当成一个产品，而不是一个项目。它会以你预测不到的方式失败，而这些失败就是你的路线图。从真实的生产追踪中构建回归测试集。每一次提示词更改、模型更换、工具调整，在部署前都要经过评估。

只有在必要时才增加范围。只有当上下文成为瓶颈时才引入子智能体；只有当单窗口上下文装不下所需内容时才引入记忆框架；只有当底层API确实不可用时才引入电脑使用或浏览器使用。不要进行预先架构设计。

选择枯燥的基础设施。工具用MCP，沙箱用E2B或Browserbase。状态存储用Postgres或你已有的任何数据库。鉴权和观测也用已有的技术栈。那些新奇的基础设施很少是获胜的关键，纪律才是。

从第一天起就关注单元经济效益。每次行动的成本、缓存命中率、重试循环成本、模型调用分布。智能体在概念验证（PoC）阶段看起来很便宜，但如果不从一开始就监控单次产出的成本，规模扩大100倍时成本就会爆炸。一个单次运行0.5美元的PoC，在中等业务规模下可能会变成每月5万美元的开支。

按季度评估模型，而不是按周。锁定一个季度。在季度末，用你的评估集对比当前的最前沿模型，如果数据支持，再进行切换。这样你既能享受到模型提升的红利，又能避免被频繁发布搞得焦头烂额。

审时度势

判定东西属于“信号”的明确特征：

受人尊敬的工程团队撰写了一篇带有数据的复盘，而非仅仅宣称已被采用。
它是一个原语（协议、模式、基础架构），而不是一个套壳或捆绑包。
它能与你现有的系统互操作，而不是取代它。
它的推介描述了它能解决的某种失败模式，而不是宣称它能实现某种能力。

判定东西属于“噪音”的明确特征：

只有演示视频，发布三十天后仍无生产环境案例。
榜单跑分的提升过于完美，不像是真的。
推介中毫无保留地使用“自主”、“智能体操作系统”或“构建任何智能体”等词汇。
那些文档中假设你会扔掉现有追踪、鉴权和配置的框架。

非传统的豪赌

每一个你未采用的框架，都是一份你无需偿还的迁移债。每一个你未追逐的榜单，都是你为自己保留的一个季度的专注。在这个周期中获胜的公司（如各自领域内的Sierra, Harvey, Cursor）都选择了窄目标，建立了枯燥的纪律，并任由领域内的噪音随风而去。

传统的路径是：选择一个技术栈，钻研数年，步步晋升。当技术栈能稳定十年时，这很奏效。但现在的技术栈每季度都在变。胜出的人不再优化“技术栈掌控力”，而是转而优化“审美”、“原语”和“交付速度”。他们在公开场合做小东西，通过交付来学习。他们被邀请进入决策室，是因为他们已经做出来的东西。作品就是资历。

目前，智能体领域还没有稳定的“彼岸”。你可能想加入的公司只有六个月历史，它们基于的框架只有十八个月历史，底层的协议也只有两年。该领域被引用次数最多的博文中，有一半的作者在三年前甚至还没入行。这里没有梯子可爬，因为大楼一直在变动层数。当梯子失效时，剩下的就是那个更古老的方法：造出东西，发到网上，让作品介绍你自己。这是非传统的路径，因为它忽略了资历认证体系，但它也是在动荡领域内产生复利的唯一路径。

你现在真正需要培养的技能不是“智能体技术”，而是在一个地表不断变动的领域中，辨别哪些工作能产生复利的纪律。上下文工程会产生复利。工具设计会产生复利。编排者-子智能体模式会产生复利。评估纪律会产生复利。运行架构思维会产生复利。而掌握周二发布的某个框架的API并不会。一旦你能分清这些，每周的发布潮就不再是压力，而变成了你可以忽略的噪音。

你不需要学习一切。你需要学习能产生复利的东西，跳过那些不能的。选择一个成果。在交付前接好追踪和评估。用LangGraph或所在团队的等效工具。使用MCP。沙箱化你的运行环境。默认使用单智能体。当失败模式迫使你扩展时再增加范围。按季度评估模型。在周五读三篇精选文章。

这就是策略手册。剩下的就是审美、交付速度，以及不追逐无关紧要之物的耐心。去造东西吧。把它们发到网上。这个时代奖励的是那些“造物者”，而非那些只会夸夸其谈的人。成为造物者的窗口期，从未像现在这样美好。

译者：boxi。