Manus – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Wed, 18 Mar 2026 08:58:29 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Manus – 青瓜传媒 //m.clubpenjuin.com 32 32 MuleRun vs OpenClaw vs Manus 3款AI Agent对比 //m.clubpenjuin.com/380047.html Wed, 18 Mar 2026 06:04:36 +0000 //m.clubpenjuin.com/?p=380047

 

2026年3月,AI Agent赛道迎来三款现象级产品:开源的“龙虾”OpenClaw、云端自进化的“骡子”MuleRun、以及被Meta收购的通用Agent鼻祖Manus

作为产品经理,我每天都在被问:这三款到底有什么区别?我该选哪个?哪个才是未来?

今天,我从不同维度进行深度对比,并重点拆解每款产品的核心功能与独家优势。不堆技术黑话,只讲产品逻辑。

一、先上结论:一张表看懂三款产品的本质差异

二、MuleRun(骡子快跑):0门槛的自进化数字员工

功能全景

MuleRun定位为全球首个自进化的个人AI系统,采用云端虚拟机架构,支持两种工作形态:

Super Agent模式:通过自然语言指令完成一次性任务,包括:

  • 批量图像风格转换:上传一张示例图,自动识别风格并批量处理
  • PPT生成:一句话生成完整演示文稿
  • 网站搭建:仅凭描述自动生成可访问的网页
  • 游戏开发:输入“治愈系闯关游戏,画面唯美,配乐柔和”,自动生成名为“星野漫步”的可玩网页游戏,含动态萤火虫光效、樱花飘落动画及五声音阶背景音乐

Computer模式:7×24小时持续运行,内置Heartbeat主动触达机制,用户开机后自动汇报过去24小时工作进展。可执行的长期任务包括:

  • 定时监控:每5分钟巡查市场行情,生成即时市场报告
  • 数据抓取:自主探查B站、今日头条等平台API可用性,构建多维度HTML可视化报告
  • 跨平台通知:通过cloudflared建立公网隧道,确保报告链接稳定可访问
  • 电商管理:24小时在线应答客服、监控竞品数据、筛选爆款产品、预判补货周期

核心优势

1)自进化机制(独家)

MuleRun的进化能力分为两个层面:

  • 个体进化:持续记录用户工作习惯、决策逻辑、行业认知、审美偏好,结构化存储于专属云端环境,支持场景复用与提前判断。例如在漫剧创作中,编导仅用自然语言描述角色设定和故事大纲,MuleRun即可生成完整剧本并转化为视觉呈现,且支持随时改变剧情。
  • 群体进化:用户可共享自己沉淀的优质Agent至Use Case广场,系统依据使用频次、完成质量加权排序,形成开放Agent网络生态。截至发布,广场已覆盖风格化写作、股价监控、LinkedIn客户筛选、短剧内容生成、视频脚本创作等大量验证任务模板。

2)场景模式预设

预设投资、设计、营销、开发、研究等方向的场景模式,切换后自动加载对应工具包。例如在投资理财场景,可调用Polymarket的API扫描市场,查看价格、流动性、交易量,分析赔率,寻找套利机会。

3)主动触达能力

突破传统AI被动问答范式,通过学习用户的工作模式、日程进度与沟通习惯,构建个性化画像,主动推荐待办事项。

三、OpenClaw(龙虾):开源自托管的AI基础设施

功能全景

OpenClaw并非传统意义上的“聊天AI”,而是一个统一的AI基础设施,整合“渠道接入、Agent管理、会话控制、权限隔离、多角色协作”五大能力。其核心架构四层分明:

  • 前台(Channel交互层):对接WhatsApp、Telegram、飞书、钉钉、Discord等多聊天渠道,在熟悉软件中发指令
  • 大脑(LLM决策层):支持十余家模型提供商(Claude、GPT、Gemini、DeepSeek、通义千问),还可运行本地模型
  • 双手(Tools执行层):40多个独立CLI工具,能读写文件、运行终端、操控浏览器、调用API
  • 档案柜(Memory记忆层):本地存储用户偏好、习惯、任务记录,数据不上云

截至2026年3月,OpenClaw GitHub星标已突破28万,社区贡献者超378人,ClawHub技能市场涵盖编码、Web开发、DevOps、浏览器自动化等十大分类,1.3万多个技能。

五大核心应用场景

1)办公自动化(职场人必备)

  • 文件管理:自动整理桌面/文件夹、批量重命名、格式转换(PDF转Word、图片转PDF等)
  • 报告与纪要:自动生成周报、日报、会议纪要,提取核心要点并直接发送至指定邮箱
  • 邮件与日程:自动分类邮件、回复常见咨询、设置日程提醒、同步审批进度
  • 批量操作:批量发送邮件、批量修改文档内容、批量处理Excel数据

2)信息处理(效率神器)

  • 网页抓取:自动抓取指定网页内容、图片、链接,生成结构化文档
  • 文档处理:总结长文、论文、报告核心要点,翻译多语言文档
  • 实时监控:监控指定网页、行业动态、价格变化,一旦更新自动推送提醒
  • 知识管理:搭建本地知识库,智能问答、快速检索

3)系统与电脑操作

  • 系统维护:自动清理磁盘垃圾、安装/卸载软件、备份重要文件、执行系统脚本
  • 代码辅助:简单代码编写、调试、格式化,生成代码注释
  • 软件操控:自动启动指定软件、执行软件内操作
  • 跨软件联动:实现不同软件间的自动化联动(如从Excel提取数据,自动填入表单并发送邮件)

3)生活场景

  • 日程管理:提醒生日、纪念日、重要约会,规划出行路线,预订票务
  • 个性化服务:定制每日新闻摘要、生成食谱、辅导学习、翻译外文内容
  • 设备管控:控制本地智能设备(如灯光、空调),实现智能家居联动
  • 数据整理:整理手机/电脑中的照片、视频,按日期分类备

5)企业与团队协作

  • 团队任务管理:自动分发任务、同步工作进度、汇总团队成果
  • 多渠道协作:自动汇总群消息、生成会议纪要、同步文件
  • 共享知识库:搭建团队共享知识库,自然语言快速查询
  • 自动化流程:客户咨询自动回复、订单数据自动整理

核心优势

  1. 开源免费,可自定义扩展:MIT协议,源码完全公开,支持修改代码、开发专属技能,无任何付费门槛。
  2. 本地优先,隐私安全:数据、任务执行全在本地设备或私有云,不上传第三方服务器,符合个人隐私与企业合规需求。深圳福田区“政务龙虾”担任民生诉求分析员,配有一位在编公务员作“监护人”。
  3. 多Agent隔离与协作机制:支持拆分“家庭助手”“工作助手”“运维助手”等角色,避免任务串线;同时支持多Agent并行协作完成复杂任务,如用户刘兴亮“养”了四只龙虾拉群交流。
  4. 持久记忆机制:每天把自己的行为写进markdown文件,每次执行任务前重新读取,实现“永久记忆+自主进化”。
  5. 无缝适配国内模型:与阿里云百炼深度适配,搭配Coding Plan套餐可实现低成本高性能任务执行。

四、Manus:通用AI Agent的启蒙者

功能全景

Manus是全球首款真正意义上的通用型AI智能体,定位为“随身全栈程序员”,可调用Gemini、ChatGPT、Claude等多家国外主流基础模型。核心功能包括:

Manus 1.6版本新增功能:

  • Manus 1.6 Max:最强大版本,任务成功率更高,用户满意度提升2%
  • 移动开发:从零开始构建移动应用程序,端到端开发支持
  • 设计视图:交互式画布,精准创建和编辑图像
  • 智能研究增强:更深入准确的分析,所有子代理运行在Max架构上
  • 增强的电子表格能力:处理复杂财务建模、数据分析、自动报告生成
  • 精细化Web开发:构建更复杂的内部工具和Web应用

核心功能亮点

  1. 异步执行模式:用户分配任务后可离开,系统在隔离的云沙盒环境中持续工作,断开连接也不影响。任务完成后主动通知用户。
  2. 深度研究能力:不只查看前几个链接,会深入挖掘并清晰标明信息来源。在GAIA基准测试所有三个难度级别均排名第一,分数超过OpenAI DeepResearch。
  3. 多智能体系统:规划代理(战略家)、执行代理(专业工人)、验证代理(质检员)分工协作。Anthropic实验显示,多智能体架构处理复杂任务性能比单智能体提升90.2%。
  4. 虚拟机沙盒架构:为每个任务创建独立云端虚拟机,实现四级安全防护:网络隔离、任务后沙盒销毁、最小权限分配、全程审计记录。已累计创建超8000万台独立虚拟机。
  5. 分层推理资源管理:简单任务用轻量级开源模型,复杂任务动用Claude 3.5等重型模型,单任务token消耗降至行业平均1/3。

核心优势

  1. 可视化交互体验:第一次向普通用户展示AI Agent工作过程——打开浏览器、编写代码、调试错误、主动刷新,把“拆解任务-自主执行-环境反馈-修正路径”变成直观过程。
  2. 商业价值已验证:推出不到一年ARR突破1亿美元,累计处理147万亿tokens,250多万人排队等待试用。
  3. 数据分析和研究专精:能分析CSV、编写Python代码、生成可视化图表、导出PDF,适合分析师、研究员等专业场景。

五、核心功能与优势对比总结

MuleRun的独家优势:零门槛、自进化、群体智慧共享、主动触达。正如创始人陈宇森所说,目标是“将AI定义权交还个人用户,成为真正属于普通人的数字员工”。

OpenClaw的独家优势:开源自由、数据主权、模型自由、多Agent隔离协作。正如Peter Steinberger所言,“它就像一个‘AI管家总台’,让AI真正成为个人与团队的‘数字员工体系’”。

Manus的独家优势:多智能体系统成熟度、深度研究能力、异步交付体验。正如行业评价,“Manus完成了它的历史使命——它是Agent时代的启蒙者”。

六、场景选型:产品经理应该怎么选?

场景一:我是技术极客,想打造完全属于自己的AI

选OpenClaw。你可以本地部署、自由换模型、深度定制技能。但要做好心理准备:需要投入大量时间学习和调教。

有开发者形容:“OpenClaw更像使用者的能力杠杆,而非贾维斯。”

场景二:我是普通职场人,想找个AI帮我干活

选MuleRun。零门槛、全天候、自进化,越用越懂你。

实测案例:让MuleRun监控AI短剧大盘,30分钟出一次可视化HTML报告;让MuleRun批量处理图片,一次调教永久复用。

价格也亲民,Plus会员19.9美元/月。

场景三:我是研究员/分析师,需要深度研究任务

选Manus。它的深度研究能力和数据分析能力确实突出,会深入挖掘并标明信息来源。但要做好心理准备:需要邀请码,可能遇到服务器繁忙,而且它不记住你的偏好,每次都是重新开始。

场景四:我是产品经理,想理解AI Agent的未来方向

三个都要了解。OpenClaw代表了“开源自由”的极客精神,MuleRun代表了“零门槛普及”的大众路线,Manus代表了“多智能体专业场景”的技术方向。这三条路径,恰恰是AI Agent未来分化的三种可能。

七、结语:从“养虾”到“养骡”,AI Agent的平民化拐点

回顾这三款产品的爆火时间线,能看到一个清晰的趋势:

2025年3月,Manus横空出世,让业界第一次看到通用AI Agent的可能性,但邀请码制度限制了普及。

2026年2-3月,OpenClaw引爆开发者社区,GitHub星标突破28万,但部署门槛劝退了99%的普通人——网上甚至催生了“上门装虾”的生意,有人花499元请人安装,花299元请人卸载。

2026年3月16日,MuleRun正式发布,把AI Agent从“技术极客的玩具”变成了“普通人可用的工具”。

正如品玩在评测中所说:“从个人电脑到智能手机,从搜索引擎到移动支付,每一种生产力工具真正大规模普及的节点,从来不是‘用户学会了驾驭复杂系统’的那一刻,而是‘把产品门槛降到普通人直接上手’的那一刻。产品必须去适应用户,不是反过来。”

MuleRun的爆火,标志着AI Agent正从“技术狂欢”走向“普通人可用”。它不是取代人类,而是真正成为“数字骡子”,帮你扛重活、跑长途、永不疲倦。

对于产品经理来说,理解这三款产品的功能与优势差异,不仅是选型问题,更是理解AI Agent产品演化方向的问题。

工具会变,但人性不变。用户要的从来不是“会部署AI”,而是“活干完了”。

作者:木木在学习

]]>
Manus AI 上线以来最大更新 //m.clubpenjuin.com/371829.html Fri, 01 Aug 2025 05:57:05 +0000 //m.clubpenjuin.com/?p=371829

 

一个 Agent(智能体)不够用?Manus 干脆给你拉来 100 个。

今天凌晨,Manus 推出了一项新功能:Manus Wide Research。这项功能的核心亮点在于,用户只需一键即可开启大规模并行 Agent 协作,轻松处理原本需要耗费数小时、动用数百个数据源的复杂调研任务。

简单来说,这类似于此前 Grok 4 Heavy 的多 Agent 模式——同时启动多个 Agent 并行工作,最后整合输出结果。不过,Manus Wide Research 的调度规模更为庞大,Agent 之间的协作也更加紧密。

在官方的演示 demo 中,Mamus 展示了两个典型的案例。第一个案例,是让Wide Research对比分析 100 款运动鞋。

从功能、定价、设计到销量,Manus 会首先并发调用 100 个子 Agent ,每个负责一款产品,独立抓取分析、汇总信息。随后,这批结果被自动汇总成 Excel 表格和网页,交付清晰的最终排序和评估建议。

第二个案例,是为即将举办的活动寻找海报灵感。Wide Research 能够同时探索 50 种视觉风格,并自动生成匹配风格的完整海报图样。几分钟内,成品设计就能交到用户手上。

目前,这项新功能已率先向 Pro 用户(199 美元/月)开放,并计划逐步向 Plus(39 美元/月)和 Basic(19 美元/月)层级用户开放。

值得一提的是,系统会根据任务需求自动激活 Wide Research,无需用户手动设置或切换。X 网友 @LamarDealMaker 在体验后发文称:

「manus wide research 是我最近用过的最好的工具之一。50 个 Agent 同时在互联网上搜寻,收集 AI 新闻数据并填写这张表格,现在我拥有了一个按需调用的个人 AI 蜂群,很兴奋将其应用到我的日常工作流程中。」

当然,Manus 的积分机制早就被吐槽「贵得离谱」,如今新功能大幅升级,积分的消耗速度势必进一步飙升。

Manus 联合创始人肖宏也疑似在社交媒体上回应这个问题:

AI 在开始时更像边际成本很高的原子生意,然后(也许会)逐步转变成为边际成本更低或者接近于零的比特生意。和这个匹配的做法是

1.制造超贵但是拓展人类能力边界的 AI 产品。

2.用 1 挣到的钱造价格实惠的 AI 产品。

3.再用 2 挣到的钱造价格更实惠的 AI 产品。

现在在阶段 1,也才刚刚开始。下一个发布,再来 100x Token 消耗量。

就目前来看, Wide Research 的底层逻辑远不止「多开 Agent」那么简单。其背后其实是一个系统级的并行计算机制——每个 Manus 会话都运行在一台独立虚拟机上,具备编排复杂云工作负载的能力。

而 Wide Research 把这套资源能力扩展到了百倍规模,试图让一个人调度一个 AI 云计算集群。

更重要的是,与传统多 Agent 系统通过角色预设(比如设计师、程序员、分析师)进行分工不同,Wide Research 中的每个子 Agent 都是一个完整的 Manus 实例,能自主思考、自我执行,再集中交付任务结果。

Manus 联合创始人季逸超也在 X 平台发文,进一步解释了这一架构的灵感来源:

Wide Research 是我们在 Agent-Agent 协作方面的最新探索。基于我们的大规模虚拟化基础设施,Manus 现在可以自主调度一支由同质 Manus Agent 组成的团队并行工作,并汇总结果。

在构建 AI Agent 的过程中,我们一直受到经典系统研究的启发。Wide Research 直接受到了 20 多年前由 @JeffDean 和 Sanjay Ghemawat 提出的 MapReduce 范式的启发。作为大规模分布式系统的先驱,谷歌遇到了其他人尚未面临的挑战,并慷慨地与世界分享了他们的解决方案。

如今,随着 Manus 推动 AI Agent 的边界,我们正遇到一类只有在大规模时才会出现的新问题。我们将继续分享在此过程中学到的经验。

特别需要指出的是,尽管愿景很宏大,Manus 并未提供足够证据证明这种同时启动数十甚至上百个子 Agent 的方案,是否真的比单个高容量 Agent 按顺序完成任务更高效。

子 Agent 如何分工、如何合并结果、在响应速度、准确率和成本上是否具备显著优势,官方尚未提供相关依据。

最后附上 Manus 体验地址:

https://manus.im/app

作者:发现明日产品的

来源:APPSO

]]>
OpenAI 会杀死 Manus 们吗? //m.clubpenjuin.com/371398.html Fri, 25 Jul 2025 01:10:49 +0000 //m.clubpenjuin.com/?p=371398

 

和三月份发布文生图更新一样,OpenAI 又一次试图提前结束 AI Agent 的创业竞赛。

北京时间 7 月 18 日凌晨,OpenAI 发布 ChatGPT Agent。它可以根据用户的指令,自动规划执行步骤,调用多种工具,并完成从抓取数据到生成表格、规划行程到预订酒店等多环节任务。

OpenAI 推文截图

这也是目前多数 AI Agent 创业项目正在尝试的方向。4 个月前你在 Manus 那场号称首个通用 AI Agent 宣传片中看到了什么,ChatGPT Agent 就完成了什么。

OpenAI 创始人山姆·阿尔特曼(Sam Altman)说,这是他第一次“真正感受到 AGI(通用人工智能)”。OpenAI 的研究人员则表示,ChatGPT Agent 是目前为止最强的 AI Agent 模型。

——是的,OpenAI 将 ChatGPT Agent 称为一个模型,而不是产品。与 Manus 等依赖上下文管理、工具链编排的系统不同,OpenAI 训练了一个专用模型,能够在单一系统中完成任务规划、跨工具调用和文档生成等复杂流程。该模型目前被归入 o3 系列,但尚未被单独命名。

AI 时代的创业者们面临着比任何历史时期都更快速的技术迭代,一次底层模型更新往往就能毁掉一个垂直领域的创新产品。

理想汽车创始人李想此前在朋友圈说,to C 层面,OpenAI 在内的掌握最强基座模型的企业,不会留下什么垂直应用的创业空间。“软件的本质是功能,需要场景化、垂直化。人工智能的本质是能力,能力强就可以吃掉一切,也是用户最方便的。”

就连一直高喊 AI 应用创新的朱啸虎也在社交媒体上表示,大模型会吃掉 90%的 Agent。X 平台上也有用户发问,如果 OpenAI 后续开放 ChatGPT Agent 模型的 API,其他创业者该如何与其竞争?

“Listen-that’s the sound of a great many startups evaporating into the void.”(听——那是无数初创公司悄然蒸发的声音。)

OpenAI 发布会视频下的一条高赞评论写道。

Manus 们选择正面硬刚

至少在目前,Manus 们还没有表现出任何退让迹象。

OpenAI 发布会刚结束,Manus 就在 X 上转发推文称,“Welcome to the game.”同属于华人 AI Agent 创业公司的 flowith 也转发强调,他们早在一年前就推出了 AI Agent 产品。

作为过去半年最早对外喊出通用 AI Agent 口号的创业公司,Manus 的反应要比其他公司强烈得多。发布会结束仅 3 个小时,Manus 就一口气对外放出了 10 条与 ChatGPT Agent 的对比测试,宣称要和 OpenAI 正面较量。

这些对比内容部分来自 OpenAI 当日展示的演示片段,部分则来自用户在社交平台上的真实使用。涵盖场景包括数据整理、路线规划、在线购物、财务分析、餐厅预订等,Manus 发出的测试结果几乎全面占优——不仅响应更快,也更强调“任务完成度”,如表格更整洁、图示更丰富、PPT 更接近成品。

比如 OpenAI 演示的“计划一次为期三天的棕榈泉网球之旅”,OpenAI 给出的是一张简单的行程表,而 Manus 生成的则是一张带有目的地风格设计的行程海报。

Manus 发布的测试对比

又如分析旧金山市过去四年的财务报告,OpenAI 输出的是 Excel 文件,而 Manus 给出的是包含图表与要点总结的完整演示文档。“Manus 完成的是整个项目,而不仅仅是提供数据。”Manus 评价说。

另一家华人公司 Genspark 的反应同样高调。创始人景鹏(Eric Jing)在 X 上写道:“我从未想过有一天——作为一家只有 24 人的小公司,我们竟然可以领先……领先于 OpenAI。”他表示,用同样的提示词,Genspark 的响应时间更短、成本更低,生成结果的质量也“高出好几倍”。

7 月 19 日,Genspark 也在社交平台上分享了 9 个与 ChatGPT Agent 的对比实例,显示他们输出的文档数据维度更丰富,排版更加美观。除了与 Manus 对比测试中类似的旅游行程制定、财务数据分析等案例外,他们还分享了一则视频生成能力的对比,指出 ChatGPT Agent 未能完成任务。

Genspark 分享的视频生成案例

社交媒体上用户们的反馈也不如此前 OpenAI 更新文生图功能那样强烈。一些批评声音指出 ChatGPT Agent 任务的完成度不高,任务生成速度也比较缓慢,部分复杂任务需要 20 分钟乃至更长时间才能完成。

OpenAI 似乎也意识到当前的 ChatGPT Agent 的速度问题,他们拍摄的几条宣传视频里,员工往往在下达指令后就合上笔记本,等到稍晚再返回查看结果。

“即便耗时 15 分钟或半个小时,相比你自己手动完成也已经是显著的提速了。”OpenAI 的研究员 Isa Fulford 说。她表示,这是一种“可以在后台发起任务,过一会儿再回来查看结果”的使用方式,而 OpenAI 的搜索团队则更专注于低延迟场景。

OpenAI 或许更强调模型能够持续推理和思考的时间,OpenAI 的研究员张熙堃说,ChatGPT Agent 在内部测试中的最长连续推理时间达到了 2 小时,“我们应该有一个排行榜来记录模型能持续思考多久。”

针对外界诟病的生成文档或 PPT 不够美观的问题,OpenAI 的研究员们在 X 上建议,先让 ChatGPT Agent 把研究工作做完,再让它输出 PPT 文件。ChatGPT 生成的是标准 pptx 格式,用户也可以在 PowerPoint 中统一套用想要的设计模板。

虽然 OpenAI 强调他们专门为 ChatGPT Agent 训练了专用模型,但部分批评声音亦指责它更像是将此前已经推出的 Operator(浏览器交互能力)与 Deep Research(深入研究能力)组合在一起的产物。Operator 可以支持 ChatGPT 通过浏览器与网站直接互动、阅读并理解网页内容,Deep Research 则擅长分析和总结信息。

事实上,ChatGPT Agent 目前团队成员正是来自于此前的 Operator 与 Deep Research 部门,目前团队规模大约在 20-35 人。OpenAI 对外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延续,“我们发现用户通过 Operator 尝试的许多查询实际上更适合 Deep Research,因此我们将两者的优势结合在一起。”

OpenAI 表示,这次发布仅标志着他们将智能体功能直接集成到 ChatGPT 中的第一步,他们计划定期逐步更新更多功能。

两种技术路线

相较于初创公司们过去半年来围绕输出质量和交付体验不断工程迭代和提示优化,OpenAI 刚刚发布的 ChatGPT Agent 在任务的最终呈现上可以称得上是粗糙。

初创公司们试图为用户呈现一个完成度更高且上手难度更低的 Agent 产品。以 Manus 为例,过去 2 个月来这家公司先后为产品加入了包括 PPT 生成、视频生成、音频生成等诸多不同能力,官网还列举出了诸多现成的模板分享以及用户案例分享。即便这些能力的实现都依托于外部模型,但至少在上手难度上,初创公司们都做得比 OpenAI 更好一些。

Manus 官网分享的模板

但抛去这些应用体验创新,在基础模型的能力比拼维度上,ChatGPT Agent 通过端到端训练的统一模型显然更有优势。OpenAI 为 ChatGPT Agent 做了诸多学术测试,部分测试结果甚至领先于 OpenAI o3 或 GPT 4o,达到行业最高水平。

比如在《人类的最后考试》(Humanity’s Last Exam)评估中,ChatGPT Agent 取得了取得了 41.6%(pass@1)的新高,大约是 OpenAI o3 的两倍。DSBench 测试中,ChatGPT Agent 大幅度领先于 GPT-4o,在数据分析任务中的表现更是明显优于人类水平。

Humanity’s Last Exam 测试结果

在专门衡量电子表格编辑能力的 SpreadsheetBench 平台上,ChatGPT Agent 创下行业新高,性能较 GPT-4o 领先一倍。OpenAI 称,在他们的内部基准测试中,ChatGPT Agent 的能力大致相当于 1 至 3 年经验的投资银行分析师水平。

简单来说,OpenAI 更强调 ChatGPT Agent 带来的底层模型能力的提高,而初创公司们受限于技术及资金则更倾向于应用创新。

7 月 19 日凌晨,Manus 联合创始人季逸超发文称,Manus 仍将继续押注于上下文工程(in-context learning)而非端到端智能体。

他说,早在 Mannus 项目初期,他们就在思考是使用开源模型训练一个端到端的智能体,还是基于前沿模型的上下文学习能力构建智能体。GPT-3 等模型的出现让他们意识到,上下文工程才是正确的方向,因为这些模型的能力远高于他们此前的内部模型。

“如果模型进步是上涨的潮水,我们希望 Manus 成为那条船,而不是固定在海床上的柱子。”季逸超说,这可以使他们能够在几小时而非几周内交付改进,并始终让他免费产品与底层面模型保持正交。

他在这篇技术文档中分享了不少 Manus 在上下文工程上的经验,比如需要围绕 KV 缓存进行设计、要使用系统文件作为上下文等等。这些工程创新显著提升了 Manus 的响应速度以及成本优势。

季逸超举例,使用 KV 缓存可以大幅度提升首个 token 的生成时间和推理成本,例如使用 Claude Sonnet 时,缓存的输入 token 成本比未缓存的成本降低 10 倍。

季逸超分享的技术文档

上下文工程的创新的确也可以使智能体拥有更好的性能效果。非盈利人工智能研究机构 Epoch AI 测试了 ChatGPT Agent 在 FrontierMath 数学试题集中的表现,称 ChatGPT Agent 在 Tier 1-3 的数学题上只得到了 27% 的正确率,且难度越高得分越低。

但当每道题允许 ChatGPT Agent 尝试 16 次之后,它的得分就从 27% 大幅度提升至 49%。Epoch AI 说,这表明更好的更好的提示词设计(prompting)或任务结构支持(scaffolding),可能会显著提升当前模型的性能。

Epoch AI 测试结果

换句话说,即便是相同的模型,创业公司们依然可以通过更好的提示工程与上下文设计,来达到远超基准模型的效果。

“你如何塑造上下文最终决定了你的智能体的行为方式:它运行的速度、恢复的效果以及扩展的范围。”季逸超说。

如何与 Agent 的未来共处

ChatGPT Agent 的正式推出,标志着 AI Agent 正式进入巨头博弈的时代。它带给人类的社会的影响不会比大模型爆发之初的影响小,让 AI 抢夺人类工作真正成了现实。

这种改变已经在悄然发生。微软和亚马逊等科技巨头们都在密集裁员,微软 CEO 萨蒂亚·纳德拉今年初表示,微软 20% 到 30% 的代码都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就对外宣布,他们的 AI Agent 仅投入使用一个月,就处理了公司 2/3 的客服聊天工作,相当于 700 名全职人工客服的工作量。

市场研究机构 MarketsandMarkets 表示,全球的 AI Agent 市场将从 2024 年的 51 亿美元增长至 2030 年的 471 亿美元,年均复合增长率(CAGR)达 44.8%。Deloitte 预测,到 2025 年,使用生成式 AI 的公司将有 25% 开始试点智能体,到 2027 年将增长至 50%。

AI Agent 的快速应用也让行业人士产生担忧。和过去大模型仅仅只是提供信息不同,AI Agent 真正具备了从思考到行动的完整能力。比如 ChatGPT Agent 现在已经可以访问网站帮助用户下单购物、自动填写信用卡地址,也可以访问用户的日历、电子邮件、云盘等隐私信息。对于使用 AI Agent 的人们来说,这意味着他们将自己的私人信息交给了一个“黑盒”,也更容易受到攻击。

发布会上,OpenAI 也专门强调了 ChatGPT Agent 的风险。他们强调,ChatGPT Agent 在执行所有重要操作前都会征得用户同意,“用户始终拥有控制权。”同时,OpenAI 还加入了包括主动监督(Watch Mode)、主动风险缓解(Proactive risk mitigation)等安全措施。

OpenAI 发布的声明

山姆·阿尔特曼在 ChatGPT Agent 推出后专门发布长篇推文警告用户,要求用户审慎地使用 ChatGPT Agent。

“Agent 代表着 AI 系统能力的新高度,它可以用自己的计算机完成一些令人惊叹且复杂的任务。它融合了 Deep Research(深度研究)和 Operator(任务执行者)的理念,但远比这些字面描述更强大 —— 它可以长时间思考,使用各种工具,再继续思考,再采取行动,如此往复。”山姆·阿尔特曼说。

山姆表示,虽然他们还不确定这些影响具体是什么,但也许会有人试图恶意“欺骗” 用户的 AI Agent,使其提供不应该提供的隐私信息,并做出无法预测的不当操作。“我们建议用户只授予 Agent 完成任务所必需的最低限度访问权限,以降低隐私和安全风险。”山姆强调,他不会将 ChatGPT Agent 用于高风险的用户或涉及大量个人信息的场景。

但对于已经演变成了一家商业盈利公司的 OpenAI 来说,它并不会因为隐私或者安全风险而减缓 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前,《金融时报》就报道称 OpenAI 正计划在 ChatGPT 中开发支付结账系统,通过 ChatGPT 完成订单的商家需要向 OpenAI 支付佣金。《金融时报》称,OpenAI 已经向部分合作伙伴电商平台 Shopify 等展示了系统的早期版本。

作者:薛星星 编辑:张文

来源:山上

]]>
OpenAI的”Manus时刻”来了:ChatGPT Agent正式发布 //m.clubpenjuin.com/371244.html Tue, 22 Jul 2025 01:10:27 +0000 //m.clubpenjuin.com/?p=371244

 

2025 年 7 月 18 日北京时间凌晨 1 点,OpenAI 进行了一场直播,介绍了他们最新、最强大的模型。

他们将 DeepResearch 和 Operator 功能合并到一起,打造了一个同时能够做深度研究和 Browser-Use 的 AI Agent —— ChatGPT Agent。

或者,你可以更简单地理解为,OpenAI 发布了一个属于他自己的 “ Manus ”。

由 OpenAI 打造的 AI Agent,按过往经验来看是面向通用型需求的,无论是从成本角度还是技术角度,预计都会对同一赛道中的对手形成降维打击。

在直播中,Sam Altman 和四位 Agent 项目的研究员( 此前分别是 Operator 和 DeepResearch 的项目成员 )通过参加婚礼策划等演示展示了 ChatGPT Agent 的功能,以及在基准测试中的表现。

使用该 Agent 的模式很简单,只需在 ChatGPT 用户端点击工具菜单并选择 “ Agent ” 就可以。

ChatGPT Agent 可以独立使用虚拟计算机来执行复杂的任务,能够无缝地从思考切换到行动,以及使用各种工具,比如在终端上写代码,执行网页浏览,制作 Excel 和 PPT 等等。

首先来一个日常生活的演示:为参加朋友婚礼做准备。

研究员不仅写明了详细的需求,还给ChatGPT提供了婚礼网站,以及预订酒店的网站。

提示词:

我们的朋友今年晚些时候要结婚了!这就是婚礼网站:XXX

你能帮我找到以下物品吗:

1)一套符合所有场合着装要求的服装(男士)

– 推荐五个方案。服装要包含一些不错的、中等奢华的物品,要与场地和天气相符。

2)帮我找一些可以提前几天预订的酒店

– 使用 booking.com 预订,并确保查看空房情况和当前价格。

3)还有,别忘了给他们挑选一份礼物,最好在 500 美元以下

写一份漂亮的报告

收到提示词后,ChatGPT Agent 立马开始执行。

因为需要使用电脑,所以一开始,它需要设置环境,这一步通常需要一两分钟,快的话甚至不到 5 秒钟( 实际演示中为 7 秒 )。准备好环境并理解了提示之后,ChatGPT Agent 会向用户确认自己的理解是否准确,用户点击 “ continue ”,ChatGPT Agent 就会开始工作。

在 ChatGPT Agent 执行任务的时候,用户可以同步看到它操作计算机屏幕的过程,以及每一步操作相关的思维链。

在这个任务中,ChatGPT Agent 最终提供了一份相当全面的报告。

它会根据链接确定日期和婚礼场地,并以此来确定西装的推荐,以及在哪里可以买到,还有房源信息等,它还会提供关于礼物的建议。特别是,ChatGPT Agent 还提供浏览结果的屏幕截图。

在 ChatGPT Agent 执行完任务之后,用户还可以通过视频的方式回顾它的执行过程。

ChatGPT Agent 可以使用两种不同的方式来浏览互联网。

一个是文本浏览器,类似于 DeepResearch,可以非常高效快速地阅读和搜索大量网页。

另一个是可视化浏览器,类似于 Operator,使得它能够与网页 UI 进行实际交互。

使用该浏览器,ChatGPT Agent 可以执行拖动网页、使用光标点击、打开 UI 组件、填写表单、输入文本等操作。

OpenAI 团队表示,这两个工具互补性很强。

OpenAI 在一月份发布了 Operator,可以执行预订和发送电子邮件等在线任务。两周后,OpenAI 又发布了 DeepResearch,可以进行深入的互联网研究,并输出高质量的研究报告。

后来,OpenAI 意识到这两种方法实际上是深度互补的。一方面,Operator 在阅读超长文章时会遇到一些困难,因为需要滚动,所以很耗时,但这正是 DeepResearch 的强项。另一方面,DeepResearch 在与网页、交互元素、视觉效果( 高度可视化的网页 )交互方面又不如 Operator。

OpenAI 在用户反馈中也了解到,大家最期待的 DeepResearch 功能之一就是能够登录网站并访问经过身份验证的来源,而 Operator 可以做到这一点。此外,很多用户在使用 Operator 时的提示,实际上和 DeepResearch 类型的提示很相似。

ChatGPT Agent 的一个关键能力是允许随时打断执行,并补充新的任务指示。这对于执行复杂且耗时很长的任务来说特别重要,很多时候一开始输入的提示是不完整的。比如在准备参加婚礼的这个任务中,你可以中途提示模型:你能再帮我找一双9.5码的男士黑色鞋吗?

ChatGPT Agent 也可能会在执行过程中主动要求用户澄清和确认一些细节。

OpenAI 介绍道,与 Agent 合作过程中要注意的一个关键是,模型有时会犯错误,“ 这就是为什么训练模型在重要步骤的最后一步请求用户的确认很重要。”

例如,在它发送电子邮件之前,它会要求用户查看草稿,内容是否合理,是否有拼写错误等。如果有,你可以要求它修改,或者直接接管浏览器,进入 Agent 的环境自行修改。

所以,ChatGPT Agent 鼓励的不是完全自主的执行,而是与用户的深度协作。

ChatGPT 还拥有自己的终端来运行代码,并能用于生成和分析 PPT、Excel 等文件。

通过终端,它还可以调用 API,包括公共 API 和用于访问用户私有数据源的 API( 例如 Google Drive、Google Calendar、Github Sharepoint 等)。你甚至还可以让 ChatGPT 调用图像生成 API 来生成图像,这样就可以为 PPT 等内容打造精美的视觉效果。类似 Deep Research Connector,只有当用户明确连接这些 API 时,它才能使用。

在演示中,OpenAI 的研究员通过让 ChatGPT Agent 调用 API 操作,生成了 ChatGPT Agent 的基准测试报告。

提示词:

从我们的 Google Drive 中提取你的评估编号,并制作一些幻灯片。形式保持简单,没有引言,没有结论,只用图表呈现结果。

模型连接到了 Google Drive API,然后在 API 内进行搜索。第一个结果是相关的,于是模型开始详细地读取第一个结果,然后编写代码,并使用图像生成模型来为 PPT 生成图片。

最终模型生成了一个 PPT 文档,可以下载并在本地打开。

我们来具体看看 ChatGPT Agent 的基准测试结果。

在 “ 人类最后考试 ”( Humanity’s Last Exam,HLE,一个面向人类知识前沿的多模态基准测试 )基准测试中,拥有完全工具使用能力的 ChatGPT Agent 超越了DeepSesearch(拥有 browser use 和 python 代码能力)、o3( 拥有 browser use 和 python 代码能力 ),其性能相比后两者几乎翻了一番,达到  42% 的通过率,而没有工具使用能力的 ChatGPT Agent 和 o3 则是垫底。

FrontierMath 基准测试用于衡量高级数学推理能力,ChatGPT Agent 在这个基准测试中达到了 27% 的通过率,超越了拥有 Python 编码能力的 o4-mini 和 o3 。

在 WebArena 基准测试中,ChatGPT Agent 的表现已经很接近人类,并高于 o3 和 4o 。

在 OpenAI 年初推出的 BrowserComp 基准测试( 衡量 Agent 搜索和查找信息的能力 )中,ChatGPT Agent 显著优于 o3 和 DeepResearch 模型。

Spreadsheet Bench 基准测试衡量一定程度上的创建和编辑电子表格的能力,使用 LibreOffice 和其它工具的 ChatGPT Agent 已经可以完成 30% 的任务,当赋予模型访问终端中原始 Excel 文件的权限时,性能进一步提升至 45% 。

Internal Banking Benchmark 基准测试评估模型执行 1 到 3 年经验投资银行分析师任务的能力,例如为一家财富 500 强公司构建一个三表财务模型。在这项基准测试中,ChatGPT Agent 的表现显著优于 DeepResearch 和 o3 。

OpenAI 表示,ChatGPT Agent 是 OpenAI 目前最强大的模型之一,不仅在基准测试中表现出色,而且还能够推理、浏览和处理现实世界的任务,“ 其水平是我们三个月前无法想象的。而它的强大很大程度上来自于浏览互联网的能力。”

OpenAI 官方还强调,从安全方面来看,让 AI Agent 执行网页浏览仍然是有风险的,“ 互联网仍然是一个可怕的地方,各种各样的网络攻击、诈骗和网络钓鱼试图窃取人们的信息,而 Agent 模型也无法幸免于所有这些攻击。”

“ 我们特别担心一种叫做 ‘ prompt injection ’ 的新攻击。假设你让智能体帮你买书,并输入你的信用卡信息,智能体可能会偶然进入一个恶意网站,要求它输入信用卡信息,而这时它可能会照做。”

“ 我们做了很多工作来防止这种情况发生,比如训练模型忽略可疑网站上的可疑指令,还设置了多层监视器,可以监视 Agent 的运行。我们甚至可以实时更新这些信息,以防范新的攻击。”

OpenAI 表示,不可能阻止所有风险,所以用户自己意识到风险的存在仍然是必要的,比如尽量不要分享高度敏感的信息,或合理地使用接管模式。

OpenAI 还提供了一个有趣的演示,让 ChatGPT Agent 制定一个最佳行程,以游览所有 30 个 MLB 球场,最后以详细的电子表格形式呈现最终计划。

有趣的是,ChatGPT Agent 真的使用了代码构建地图,并成功实现了。

最后,OpenAI 表示,ChatGPT Agent 将为 Pro、Plus 和 Team 用户上线。Pro 用户每月将获得 400 次查询,Plus 和 Team 用户每月将获得 40 次查询。Pro 版的部署预计将于本月底完成,Plus 版也将很快完成,Team 版将争取在本月底前上线企业版和教育版。

“ 我们希望你们会喜欢它。虽然现在还处于初期阶段,但我们会迅速改进它,并且我们非常期待看到它后续的发展。” OpenAI 团队表示。

作者:流大古 编辑:大饼

来源:知危

]]>
OpenAI 会杀死 Manus 们吗? //m.clubpenjuin.com/371209.html Mon, 21 Jul 2025 01:36:50 +0000 //m.clubpenjuin.com/?p=371209

 

和三月份发布文生图更新一样,OpenAI 又一次试图提前结束 AI Agent 的创业竞赛。

北京时间 7 月 18 日凌晨,OpenAI 发布 ChatGPT Agent。它可以根据用户的指令,自动规划执行步骤,调用多种工具,并完成从抓取数据到生成表格、规划行程到预订酒店等多环节任务。

OpenAI 推文截图

这也是目前多数 AI Agent 创业项目正在尝试的方向。4 个月前你在 Manus 那场号称首个通用 AI Agent 宣传片中看到了什么,ChatGPT Agent 就完成了什么。

OpenAI 创始人山姆·阿尔特曼(Sam Altman)说,这是他第一次“真正感受到 AGI(通用人工智能)”。OpenAI 的研究人员则表示,ChatGPT Agent 是目前为止最强的 AI Agent 模型。

——是的,OpenAI 将 ChatGPT Agent 称为一个模型,而不是产品。与 Manus 等依赖上下文管理、工具链编排的系统不同,OpenAI 训练了一个专用模型,能够在单一系统中完成任务规划、跨工具调用和文档生成等复杂流程。该模型目前被归入 o3 系列,但尚未被单独命名。

AI 时代的创业者们面临着比任何历史时期都更快速的技术迭代,一次底层模型更新往往就能毁掉一个垂直领域的创新产品。

理想汽车创始人李想此前在朋友圈说,to C 层面,OpenAI 在内的掌握最强基座模型的企业,不会留下什么垂直应用的创业空间。“软件的本质是功能,需要场景化、垂直化。人工智能的本质是能力,能力强就可以吃掉一切,也是用户最方便的。”

就连一直高喊 AI 应用创新的朱啸虎也在社交媒体上表示,大模型会吃掉 90%的 Agent。X 平台上也有用户发问,如果 OpenAI 后续开放 ChatGPT Agent 模型的 API,其他创业者该如何与其竞争?

“Listen-that’s the sound of a great many startups evaporating into the void.”(听——那是无数初创公司悄然蒸发的声音。)

OpenAI 发布会视频下的一条高赞评论写道。

Manus 们选择正面硬刚

至少在目前,Manus 们还没有表现出任何退让迹象。

OpenAI 发布会刚结束,Manus 就在 X 上转发推文称,“Welcome to the game.”同属于华人 AI Agent 创业公司的 flowith 也转发强调,他们早在一年前就推出了 AI Agent 产品。

作为过去半年最早对外喊出通用 AI Agent 口号的创业公司,Manus 的反应要比其他公司强烈得多。发布会结束仅 3 个小时,Manus 就一口气对外放出了 10 条与 ChatGPT Agent 的对比测试,宣称要和 OpenAI 正面较量。

这些对比内容部分来自 OpenAI 当日展示的演示片段,部分则来自用户在社交平台上的真实使用。涵盖场景包括数据整理、路线规划、在线购物、财务分析、餐厅预订等,Manus 发出的测试结果几乎全面占优——不仅响应更快,也更强调“任务完成度”,如表格更整洁、图示更丰富、PPT 更接近成品。

Manus 发布的与 ChatGPT Agent 的对比视频

比如 OpenAI 演示的“计划一次为期三天的棕榈泉网球之旅”,OpenAI 给出的是一张简单的行程表,而 Manus 生成的则是一张带有目的地风格设计的行程海报。

Manus 发布的测试对比

又如分析旧金山市过去四年的财务报告,OpenAI 输出的是 Excel 文件,而 Manus 给出的是包含图表与要点总结的完整演示文档。“Manus 完成的是整个项目,而不仅仅是提供数据。”Manus 评价说。

另一家华人公司 Genspark 的反应同样高调。创始人景鹏(Eric Jing)在 X 上写道:“我从未想过有一天——作为一家只有 24 人的小公司,我们竟然可以领先……领先于 OpenAI。”他表示,用同样的提示词,Genspark 的响应时间更短、成本更低,生成结果的质量也“高出好几倍”。

7 月 19 日,Genspark 也在社交平台上分享了 9 个与 ChatGPT Agent 的对比实例,显示他们输出的文档数据维度更丰富,排版更加美观。除了与 Manus 对比测试中类似的旅游行程制定、财务数据分析等案例外,他们还分享了一则视频生成能力的对比,指出 ChatGPT Agent 未能完成任务。

Genspark 分享的视频生成案例

社交媒体上用户们的反馈也不如此前 OpenAI 更新文生图功能那样强烈。一些批评声音指出 ChatGPT Agent 任务的完成度不高,任务生成速度也比较缓慢,部分复杂任务需要 20 分钟乃至更长时间才能完成。

OpenAI 似乎也意识到当前的 ChatGPT Agent 的速度问题,他们拍摄的几条宣传视频里,员工往往在下达指令后就合上笔记本,等到稍晚再返回查看结果。

“即便耗时 15 分钟或半个小时,相比你自己手动完成也已经是显著的提速了。”OpenAI 的研究员 Isa Fulford 说。她表示,这是一种“可以在后台发起任务,过一会儿再回来查看结果”的使用方式,而 OpenAI 的搜索团队则更专注于低延迟场景。

OpenAI 或许更强调模型能够持续推理和思考的时间,OpenAI 的研究员张熙堃说,ChatGPT Agent 在内部测试中的最长连续推理时间达到了 2 小时,“我们应该有一个排行榜来记录模型能持续思考多久。”

针对外界诟病的生成文档或 PPT 不够美观的问题,OpenAI 的研究员们在 X 上建议,先让 ChatGPT Agent 把研究工作做完,再让它输出 PPT 文件。ChatGPT 生成的是标准 pptx 格式,用户也可以在 PowerPoint 中统一套用想要的设计模板。

虽然 OpenAI 强调他们专门为 ChatGPT Agent 训练了专用模型,但部分批评声音亦指责它更像是将此前已经推出的 Operator(浏览器交互能力)与 Deep Research(深入研究能力)组合在一起的产物。Operator 可以支持 ChatGPT 通过浏览器与网站直接互动、阅读并理解网页内容,Deep Research 则擅长分析和总结信息。

事实上,ChatGPT Agent 目前团队成员正是来自于此前的 Operator 与 Deep Research 部门,目前团队规模大约在 20-35 人。OpenAI 对外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延续,“我们发现用户通过 Operator 尝试的许多查询实际上更适合 Deep Research,因此我们将两者的优势结合在一起。”

OpenAI 表示,这次发布仅标志着他们将智能体功能直接集成到 ChatGPT 中的第一步,他们计划定期逐步更新更多功能。

两种技术路线

相较于初创公司们过去半年来围绕输出质量和交付体验不断工程迭代和提示优化,OpenAI 刚刚发布的 ChatGPT Agent 在任务的最终呈现上可以称得上是粗糙。

初创公司们试图为用户呈现一个完成度更高且上手难度更低的 Agent 产品。以 Manus 为例,过去 2 个月来这家公司先后为产品加入了包括 PPT 生成、视频生成、音频生成等诸多不同能力,官网还列举出了诸多现成的模板分享以及用户案例分享。即便这些能力的实现都依托于外部模型,但至少在上手难度上,初创公司们都做得比 OpenAI 更好一些。

Manus 官网分享的模板

但抛去这些应用体验创新,在基础模型的能力比拼维度上,ChatGPT Agent 通过端到端训练的统一模型显然更有优势。OpenAI 为 ChatGPT Agent 做了诸多学术测试,部分测试结果甚至领先于 OpenAI o3 或 GPT 4o,达到行业最高水平。

比如在《人类的最后考试》(Humanity’s Last Exam)评估中,ChatGPT Agent 取得了取得了 41.6%(pass@1)的新高,大约是 OpenAI o3 的两倍。DSBench 测试中,ChatGPT Agent 大幅度领先于 GPT-4o,在数据分析任务中的表现更是明显优于人类水平。

Humanity’s Last Exam 测试结果

在专门衡量电子表格编辑能力的 SpreadsheetBench 平台上,ChatGPT Agent 创下行业新高,性能较 GPT-4o 领先一倍。OpenAI 称,在他们的内部基准测试中,ChatGPT Agent 的能力大致相当于 1 至 3 年经验的投资银行分析师水平。

简单来说,OpenAI 更强调 ChatGPT Agent 带来的底层模型能力的提高,而初创公司们受限于技术及资金则更倾向于应用创新。

7 月 19 日凌晨,Manus 联合创始人季逸超发文称,Manus 仍将继续押注于上下文工程(in-context learning)而非端到端智能体。

他说,早在 Mannus 项目初期,他们就在思考是使用开源模型训练一个端到端的智能体,还是基于前沿模型的上下文学习能力构建智能体。GPT-3 等模型的出现让他们意识到,上下文工程才是正确的方向,因为这些模型的能力远高于他们此前的内部模型。

“如果模型进步是上涨的潮水,我们希望 Manus 成为那条船,而不是固定在海床上的柱子。”季逸超说,这可以使他们能够在几小时而非几周内交付改进,并始终让他免费产品与底层面模型保持正交。

他在这篇技术文档中分享了不少 Manus 在上下文工程上的经验,比如需要围绕 KV 缓存进行设计、要使用系统文件作为上下文等等。这些工程创新显著提升了 Manus 的响应速度以及成本优势。

季逸超举例,使用 KV 缓存可以大幅度提升首个 token 的生成时间和推理成本,例如使用 Claude Sonnet 时,缓存的输入 token 成本比未缓存的成本降低 10 倍。

季逸超分享的技术文档

上下文工程的创新的确也可以使智能体拥有更好的性能效果。非盈利人工智能研究机构 Epoch AI 测试了 ChatGPT Agent 在 FrontierMath 数学试题集中的表现,称 ChatGPT Agent 在 Tier 1-3 的数学题上只得到了 27% 的正确率,且难度越高得分越低。

但当每道题允许 ChatGPT Agent 尝试 16 次之后,它的得分就从 27% 大幅度提升至 49%。Epoch AI 说,这表明更好的更好的提示词设计(prompting)或任务结构支持(scaffolding),可能会显著提升当前模型的性能。

Epoch AI 测试结果

换句话说,即便是相同的模型,创业公司们依然可以通过更好的提示工程与上下文设计,来达到远超基准模型的效果。

“你如何塑造上下文最终决定了你的智能体的行为方式:它运行的速度、恢复的效果以及扩展的范围。”季逸超说。

如何与 Agent 的未来共处

ChatGPT Agent 的正式推出,标志着 AI Agent 正式进入巨头博弈的时代。它带给人类的社会的影响不会比大模型爆发之初的影响小,让 AI 抢夺人类工作真正成了现实。

这种改变已经在悄然发生。微软和亚马逊等科技巨头们都在密集裁员,微软 CEO 萨蒂亚·纳德拉今年初表示,微软 20% 到 30% 的代码都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就对外宣布,他们的 AI Agent 仅投入使用一个月,就处理了公司 2/3 的客服聊天工作,相当于 700 名全职人工客服的工作量。

市场研究机构 MarketsandMarkets 表示,全球的 AI Agent 市场将从 2024 年的 51 亿美元增长至 2030 年的 471 亿美元,年均复合增长率(CAGR)达 44.8%。Deloitte 预测,到 2025 年,使用生成式 AI 的公司将有 25% 开始试点智能体,到 2027 年将增长至 50%。

AI Agent 的快速应用也让行业人士产生担忧。和过去大模型仅仅只是提供信息不同,AI Agent 真正具备了从思考到行动的完整能力。比如 ChatGPT Agent 现在已经可以访问网站帮助用户下单购物、自动填写信用卡地址,也可以访问用户的日历、电子邮件、云盘等隐私信息。对于使用 AI Agent 的人们来说,这意味着他们将自己的私人信息交给了一个“黑盒”,也更容易受到攻击。

发布会上,OpenAI 也专门强调了 ChatGPT Agent 的风险。他们强调,ChatGPT Agent 在执行所有重要操作前都会征得用户同意,“用户始终拥有控制权。”同时,OpenAI 还加入了包括主动监督(Watch Mode)、主动风险缓解(Proactive risk mitigation)等安全措施。

OpenAI 发布的声明

山姆·阿尔特曼在 ChatGPT Agent 推出后专门发布长篇推文警告用户,要求用户审慎地使用 ChatGPT Agent。

“Agent 代表着 AI 系统能力的新高度,它可以用自己的计算机完成一些令人惊叹且复杂的任务。它融合了 Deep Research(深度研究)和 Operator(任务执行者)的理念,但远比这些字面描述更强大 —— 它可以长时间思考,使用各种工具,再继续思考,再采取行动,如此往复。”山姆·阿尔特曼说。

山姆表示,虽然他们还不确定这些影响具体是什么,但也许会有人试图恶意“欺骗” 用户的 AI Agent,使其提供不应该提供的隐私信息,并做出无法预测的不当操作。“我们建议用户只授予 Agent 完成任务所必需的最低限度访问权限,以降低隐私和安全风险。”山姆强调,他不会将 ChatGPT Agent 用于高风险的用户或涉及大量个人信息的场景。

但对于已经演变成了一家商业盈利公司的 OpenAI 来说,它并不会因为隐私或者安全风险而减缓 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前,《金融时报》就报道称 OpenAI 正计划在 ChatGPT 中开发支付结账系统,通过 ChatGPT 完成订单的商家需要向 OpenAI 支付佣金。《金融时报》称,OpenAI 已经向部分合作伙伴电商平台 Shopify 等展示了系统的早期版本。

作者:山上

来源:山上

]]>
腾讯把“Manus”放进了QQ浏览器 //m.clubpenjuin.com/368369.html Wed, 21 May 2025 02:44:58 +0000 //m.clubpenjuin.com/?p=368369

 

5月19日,QQ浏览器宣布升级为AI浏览器,正式推出QBot,使用腾讯混元和DeepSeek双模型。团队透露,QQ浏览器用户规模超4亿。

QBot集成了AI搜索、AI浏览、AI办公、AI学习、AI写作等能力,并引入了Manus类AI Agent,可调用执行复杂任务。其中首批正在灰度的Agent包括行业首个高考Agent“AI高考通”,这是一个可根据用户个性化输入生成高考志愿填报方案等信息的智能体产品。

与大模型Chatbot类产品相似,QQ浏览器改变了导航式入口,转为更简洁的入口界面,同时支持联网和深度思考两种搜索模式。

搜索时,用户在框内输入需求可唤起AI搜索和网页搜索两种搜索结果。同时,QQ浏览器会自动识别用户浏览页面意图,提供工具使用建议,用户点击按钮可调用文件格式转换、文档翻译、文档内容提取等工具。

据QQ浏览器QBot产品负责人刘汉博介绍,两种搜索结果是为了同时保留快速获取信息和找网页资源等诉求。团队认为,在AI时代,传统搜索与AI搜索的目标预期还是存在差异,前者无法被后者完全取代,其本质变化是随着产品迭代,用户获取信息的效率提升。

QBot团队屡次强调要将对于AI使用习惯的选择权交给用户。一个在布局上的体现是,QBot对传统搜索和AI搜索的结果框进行并列展示,用户可自行拖拽大小,自定义呈现主次关系。

大模型及Chatbot类产品诞生之后,传统搜索引擎被认为可能受到巨大冲击,一个最为普遍的拷问是,AI搜索会否替代传统搜索?

这是巨头谷歌时常面临的质疑。数据分析网站Similarweb近期公布了一组数据,2025年4月,ChatGPT.com成为全球十大网站中,唯一实现月度正增长的平台。当谷歌、YouTube、Instagram、X等所有头部平台流量集体下滑时,ChatGPT访问量逆势增长13.04%。

更细致的数据显示,ChatGPT在非工作日的使用量显著下降,这强烈说明人们主要将其用于工作和学习相关的任务。这突显了科技巨头们通过AI产品承接这一庞大用户需求的迫切性。

AI大模型来势汹汹,但这可能不是搜索引擎独自的战争,以搜索为核心功能的浏览器更有必要主动加入战场,利用AI技术改善自己可能面临的困境。

腾讯对于AI的重视早有提升。在刚刚结束的一季度财报会上,腾讯董事会主席兼CEO马化腾表示,AI能力已经对腾讯效果广告与长青游戏等业务产生了实质性贡献,“我们也加大了对元宝应用与微信内的AI等新AI机遇的投入。”

腾讯还预示了微信生态与Agent结合可能释放的化学反应,管理层在财报会上表示,在微信生态系统中,腾讯有机会创建一个非常独特的Agent AI。

“它可以连接微信生态系统以及数百万个小程序。这些小程序涵盖了各种信息以及跨多个应用领域的交易和操作能力。因此,与更通用的Agent AI相比,这将是非常独特的,属于腾讯的一种差异化产品。”

目前看来,Agent在QQ浏览器率先落地。在团队的解释中,这并不意味着浏览器就是更适合Agent的一种产品形态,而是可以视为浏览器目前明确了技术与需求如何匹配,借助内部共享互通的AI技术完成了AI Agent的能力改造。

QBot产品负责人刘汉博对界面新闻记者表示,从用户视角来看,微信和QQ浏览器两个产品的生态逻辑并不一致。微信有小程序等大量能灵活打通的生态空间,而浏览器的核心优势是“Browser Use”(Agent利用AI技术操纵浏览器),它让用户在网页内完成指令执行更加自然高效。

这也是QBot团队眼中,QQ浏览器内嵌工作流AI Agent与Manus类独立通用AI Agent之间的本质区别。

刘汉博认为,相比于Manus、扣子空间等产品,QBot侧重于解决浏览器用户的原始诉求,产品逻辑优先通过大模型技术提升效率,而不是执行范围更泛的复杂性任务。

他同时指出,通用AI Agent存在一个阻力环节就是“Browser Use”,而浏览器对按钮识别、模拟点击等操作更直接,相比通用AI Agent在消耗时长和任务准确性等方面会更有优势。

例如,就下载报表而言,以往用户可能需要点开报表,选择某一个目录,再选择特定日期进行下载,现在的方式是将所有步骤缩减为一个统一的指令。在这类任务上浏览器会更为擅长。

作为互联网企业的产品线之一,QQ浏览器加入模型调用也需要平衡用户体验提升与成本增加之间的商业化平衡。

刘汉博认为,其商业转化最终会有一个正向提升。首先,成本增加是确定的,但长期来看,大模型成本下降速度可能使其快速落到一个可控范围。除此以外,团队观察到的趋势是,大模型加入后,用户平均使用频次这一活跃度指标有所提升,同时,用户和广告主之间的信息链接精准度在持续提升。

根据市场调查机构Statcounter的最新报告,2025年4月中国浏览器市场份额中,Chrome、Edge、Safari分别为前三,安卓、UC浏览器、360安全浏览器和QQ浏览器以相近的市占率分别位列第四至第七。

如今国产浏览器陆续上线AI功能,这俨然形成一场新阶段的产品力角逐。

在QBot团队看来,AI浏览器的未来发展形态将兼具工具和平台属性,这也要求其向内寻求腾讯云等更好的AI技术支持,向外拓展更完善的MCP Server等能力生态。

作者:伍洋宇,编辑:文姝琪

来源:界面新闻

]]>
Manus割不动国内用户 //m.clubpenjuin.com/368299.html Tue, 20 May 2025 01:35:10 +0000 //m.clubpenjuin.com/?p=368299

 

火爆一时的Manus终于全面开放注册了,但遗憾的是并没有中文版。

5月12日,Manus官宣开放注册,这个曾经一个邀请码都能被炒到10万元,无数人只能从各种测评中略知一二的神秘AI产品,如今终于揭开了面纱。

相对于3月初作为全球首个通用AI Agent产品火遍全网,Manus此次开放注册并没有引起太大的轰动。

Manus此前引发关注,是因为它不同于单一的大模型生成简单图文,而是将用户输入的命令拆解为不同的任务并调用不同子Agent或工具分别完成具体任务,这让很多人第一次清晰地看到AI Agent与大模型的区别。再加上Manus和DeepSeek一样都是来自于中国的创业公司,很多人将其视为DeepSeek之后中国AI领域的又一个颠覆式产品。

此次蓝媒汇实测发现,Manus当前并没有中文版,若通过百度等中文浏览器直接搜索进入Manus官网,只能看到Manus 3月份发布的与通义千问合作的消息。

在业内人士看来,Manus与通义千问这样的头部AI大模型合作2个月后,之所以中文版至今还不见踪影,主要是国内用户变现难,不容易收割。

一个字儿:贵

初步体验Manus后,最大的感受就一个字:贵。

Manus采用的是消耗积分方式,注册成功后会获得1000免费积分,此外,每天会获得300免费积分。每天获得的免费积分不能累积,无论是否使用完,第二天都自动变为300积分。

不过你如果真的想常用Manus,根本不用考虑这300积分会用不完,因为随便输入一个任务就能轻松消耗掉几百积分,每天获得的免费积分只够完成一些非常简单的任务。

由于Manus上线之初就已经有不少人体验过各种功能,所以为了避免浪费有限的积分,蓝媒汇给Manus安排了一个较为复杂的任务,做一个简单的网页版数独游戏。

尴尬的是,直到注册时送的1300积分全部消耗光,该任务都没能完成,无法检验成果。而且由于不断地测试导致上下文太长超出限制自动停止,不得不通过压缩上下文的方式接力进行。

如果不想让这个任务因此半途而非,要么就得等第二天更新免费积分,要么就得花钱购买积分。根据Manus的收费标准,平均100积分就需要1美元。也正因如此,很多人一看到价格就直呼太贵了。

Manus在“公测”阶段就采用这样的收费标准,或许与其成本有关

据一位业内人士介绍,Agent的运行会依赖大模型规划、执行,消耗大量的tokens(自然语言文本的的最小单位),所以如果没有自研模型,就需要支付模型的API费用给基础模型的厂商。Manus的海外版主要使用美国人工智能初创公司Anthropic开发的大型语言模型Claude,根据外媒报道,平均每执行一个任务,Manus就要向Anthropic支付2美元。

除此之外,Manus还需要支付高昂的云端沙盒成本。该业内人士介绍,Manus在运行时只需要用户使用浏览器,所有的任务都在云端完成,而不需要占用户本地电脑的资源。这样的方式就会带来云端虚拟机的成本,相当于提高了成本,改善了用户的使用体验。

Manus作为一个初创公司,显然没有实力像国内大厂那样免费给C端普通用户免费使用,“公测”阶段就无差别收费在所难免,但这样的价格难免劝退不少人。

中文版上线遥遥无期

Manus中文版何时上线是不少人关注的问题,虽然Manus完全可以通过中文来使用,但到目前为止,Manus中文版仍遥遥无期。

这或许与监管有关。上述业内人士向蓝媒汇分析称,Manus的海外版主要使用美国人工智能初创公司Anthropic公司开发的大型语言模型Claude,海外模型在国内没有备案,所以不能直接使用。这也就意味着,Manus就算已经开发出中文版,也无法在国内上线。

此外,之所以没有立即上线中文版,或许也跟国内用户付费习惯和意愿相关。相比国外用户,在国内大模型内卷的大背景下,直接向用户收费进行付费订阅,显然不是一个好的选择,毕竟国内用户不是非用Manus不可。

虽然Manus已经与通义千问合作,但双方并没有公布任何进展或细节,AI蓝媒汇尝试就中文版Manus的研发进度向双方咨询,截至发稿暂未得到有效回应。

从Manus的相关动态来看,Manus当前似乎并不急于回到国内,主要目标仍然是海外市场。

就在Manus宣布开放注册的同时,有消息称Manus母公司拟融资1亿美元,Manus也是火速辟谣。不过根据天眼查APP,Manus当前已经获得了4轮融资,最近一次融资为今年4月份完成的7500万美元融资(约合人民币5.4亿元),投资方为硅谷风头Benchark。此外,腾讯、红杉中国、真格基金也曾对Manus进行过投资。

虽然这个融资细节可能有误,但根据数据分析机构CB Insights的信息,Manus在今年上半年获得了一笔7500万美元的种子轮融资,投资人中也包含Benchmark、腾讯、红杉以及真格基金。

另据外媒报道,蝴蝶效应计划将这笔新注入的资金用于支持其服务向海外市场扩张,目标直指美国、日本和中东。

缺少模型是优势,也是软肋

据了解,Manus将重点继续放在海外,而不是趁着在国内大热时回国的原因,就在于作为一家创业公司,Manus在国内恐怕难以维持生计。

Manus背后的母公司蝴蝶效应并不研发大模型,而是直接调用已有大模型,这是它在美国各种政策限制下还能获得硅谷融资的原因。但如此一来,Manus就成了一个“赚差价”的AI公司,定价空间受大模型厂商制约明显,即便与通义千问达成了合作,不想赔本赚吆喝,收费就低不下来,这与国内AI市场普遍以低价甚至免费吸引用户的情况水土不服。

更何况,Manus的护城河并不牢靠,至少从用户层面来讲,并非没有其他产品可以替代Manus。

在Manus引爆全球关注之前,字节跳动就先后发布了Coze(扣子)的海外版和国内版。凭借抖音等内容平台,Coze迅速积累了大量用户,而且当前Coze国内版虽然也收费,但对于只需要基础功能的个人用户,免费版足矣。

来源:Coze官网

4月下旬,被一些人称作Manus平替的百度心响APP上线安卓平台,iOS版也在审核中,有消息称心响APP现已签约1500家机构,但还未经证实。该APP依托百度在搜索领域的积累已经可以完成包括城市旅游、AI相亲、法律咨询、试题讲解、游戏开发在内的十大场景超200个任务类型。更重要的是,心响当前是全量免费的。

对于Manus而言,虽然刚刚获得了7500万美元的投资,但想凭此就与字节、百度这样有自研模型也有足够资本的大厂竞争,未免有些杯水车薪。

即便不与这些大厂在国内竞争,Manus在海外市场的竞争压力也不小。国外科技巨头同样也在积极布局AI Agent。北京时间5月15日凌晨,谷歌发布了由Gemini驱动的通用科学智能体AlphaEvolve,可以用于攻克数学分析、组合学、几何学等领域的开放性难题。

对于Manus来说,全球首款通用智能体的头衔确实给它带来了不少关注,但在国内外巨头的层层围堵之下,光有头衔显然不够,能否打好开放注册这一仗,或许正是Manus是否有机会讲新故事的关键。

作者:孙光辛

来源:AI蓝媒汇

]]>
Manus免费开放注册:下一个AI爆发时刻来袭? //m.clubpenjuin.com/368005.html Wed, 14 May 2025 05:51:01 +0000 //m.clubpenjuin.com/?p=368005

 

曾炒至10万的Manus免费开放注册了。

符合这两年AI资讯一贯“阶段性沉默、点状式爆发”的传播特点,仅是一则50余个字的资讯,相关话题热度便不断飙升。

得不到的永远在骚动,这个被称为“创造了AI Agent 的DeepSeek时刻”的产品,曾在一夜爆火后,因为邀请码一度炒到5位数,陷入了是靠着营销号带节奏的“饥饿营销”的争议,此后声量渐歇。

5月12日晚上11点,Manus发布公告表示,Manus即日起向所有人开放,无需等待;所有用户将一次性获得1000积分奖励,同时,用户每天还能免费获得300积分(相当于一次使用机会)。

值得注意的是,不同于目前国内其他AI搜索产品,如DeepSeek、Kimi、元宝等几乎都是0门槛、完全免费开放的,而Manus的任务规划、决策和输出生成都需要消耗积分,任务越复杂或越长,所需的积分就越多。这在一定程度上限制了用户的使用次数。

不过,目前Manus开放的仍是国际注册,中文版本还在开发中。

不管早期评价多两极分化,大家对“终于能用上Manus”这件事的期待值还是拉满了。

用起来怎么样?

两个多月前,在Manus推出前夕,Manus创始人之一的张涛对这个新产品的定义是:“我们定义了一个新赛道。”

那到底有多新呢?

简单来说,底层技术上的突破难说,但至少初步定义了一个从去年底就饱受讨论的问题——一个AI Agent产品的形态应该是什么样的?

我首先问了一个重点在于信息整合方向上的问题,让Manus详细讲解一下赤壁之战,以报告的形式具体描述战斗经过,同时结合地图与地形可视化进行说明。

对于第一次使用Manus的人来说,Manus呈现出来的思考过程多少会眼前一亮,Manus先是创建了一个工作流,把它接下来要做的事情细分。

有趣的是,不同于其他AI搜索软件,Manus直接把信息溯源放在了工作流里。比如在整理历史背景和相关地图资料时,它打开了维基 百科和百度百科。

逻辑性很强,姿态标准,从溯源结果追溯也能避免一定程度的AI幻觉(此处重点批评DeepSeek)。

最后,Manus帮我生成了4个文件清单,除了最终整合完的一篇2000多字的完整报告——引言、背景、经过、结果和影响……面面俱到,还有详细的Todo list工作流以及图片文件,其中关于战斗经过还单独拎出来一份。

值得注意的是,其中那张图片,Manus应该还是在一个大地图里截图出来的,虽然能在思考过程中追溯来源,但最终生成结果还是缺少图片来源标注。

接着,我又再问了一个主观性更强的问题:用关键词概括Manus的优势,以及面对“套壳”争议,如何定义通用AI智能体以及理解现阶段AI应用落地的着重点?

这次Manus显然更智能了,再复述完我的问题后,它没有自行猜测我的需求去分析,而是首先反问了我的具体需求和关注点,还给了一些引导思考的关键词。

紧接着,才开始了它的具体工作。这次,Manus整整给了我10个附件,包括完整的报告以及相关的参考资料和中间分析文档。

而这一次,我在prompt中其实并未提及需要帮我整合成一份完整报告,但Manus还是给我写了篇论文——包括了摘要和参考文献。

截至到这一步,Manus整体表现都不错,不同于其他AI产品还需要用户研究如何提出更好的prompt,Manus用户只要提出简单的文字需求,Manus就可以自主工作,并交付成型产品。

唯一的缺点就是,真的太慢了,上述两个任务,Manus花费的时间都需要10分钟,而且后面这个显然更为复杂的提问,花费的积分已经超过300,相当于,如果我把1000积分用完后,靠着每天300积分的免费额度,我甚至拿不到一份完整报告。

任务完成后,Manus还引导我进行网页部署。

这一次是漫长的25分钟……

这次结果反而让我有点失望。

直接说,就是丑。相当于一个网页框架,直接填文案,你看不到任何的UI设计。

PConline综合看到不少体验后的网友评论:做PPT不如另一个定位国际市场的Agent产品Genspark,网页不如字节的扣子。

显然,从内测走向公测,Manus仍处于产品的早期阶段。AI迭代速度之快,让竞争变得极度激烈,特别是国内的AI团队在模型训练和产品创新等方面的表现都尤其出色,这也是市场一直说的,国内AI产品很难有先发优势。因为后来居上的太多了。

但Manus的出现至少指出了前进方向。

是否套壳不再重要

从工作流里其实可以明显看出,Manus的工作模式相当于在云端设置了一个“虚拟机”,在虚拟机里去跑代码——它自己有个操作系统,自主上网,跨平台、跨网页调用API完成任务。

其实就是将复杂任务拆解为多个子任务,并动态调用不同的Agent或工具来执行每个子任务,最终完成整体任务。

其中重点是,对用户的指令没有那么“严格”了。

正如此前Manus团队曾表示,AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器。

市场给了AI 2年多的发展期,这2年多的时间里,大家基本的共识是,先投入,先All in,寻求技术突破的前提下,AI更多是工具,讲的是模型能力,所以才有风靡一时的“指令”。

而在最近红杉第三届AI峰会上,新共识出现了。

据“AI深度研究员”文章报告,峰会提出AI商业模式转型:下一轮 AI,卖的不是工具,而是收益。

从卖工具到卖协作,最终走向卖成果——未来AI应用的核心问题,不是模型能力,而是“是否能跑起来干活”。不是谁模型参数更多、推理速度更快,而是谁能把结果交付闭环,谁就拥有了客户预算。

红杉认为:“AI 应用价值将超越模型本身。”

从这一点回过头来看Manus,Manus是全球首个通用Agent,扣子空间和百度前不久发布的心响都是这个方向,即在获取用户的指令后,可以自主规划与多智能体协作。

值得注意的是,据剁椒Spicy消息,心响App的一位产品经理表示,团队正是看到了Manus爆红之后,加班加点一个月,打造了心响App。

正如上文所述,Manus至少让市场看到,现阶段一个真正的AI Agent应该是什么样的。

“Attention 不是 all you need,解放用户的 Attention 才能重新定义 DAU”,Manus团队曾分享。

Manus创始人肖弘一直强调的观点是:模型商品化。大家去做use case、去解决具体的问题。——这是应用层。

而对AI应用类产品来说,是否“套壳”便不再重要,Manus的核心优势从来不是大模型,而是通用性、解构性,如何做好任务规划和执行框架,以便更好调用多个智能体。

模型能力是一回事,但落到用户层面,如何顺畅地用到自己的具体工作中,是另一回事。

作者:太平洋科技

来源:PConline太平洋科技

]]>
从Manus到MCP:25年AI的3大新趋势 //m.clubpenjuin.com/365114.html Wed, 19 Mar 2025 01:10:58 +0000 //m.clubpenjuin.com/?p=365114

 

25年开年以来,AI发展如火如荼,DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷,眼花缭乱。

这里我将最近一个月以来的思考总结一下,对25年AI发展趋势做几点预判。

(1)Manus:Agent元年的一次抢跑

Manus推出之后,我们第一时间拿到了体验账号,进行了充分的体验测评。

先说结论:虽然Manus目前还有种种不足,但它的产品设计思路创意满满,值得我们给予充分的肯定。

Manus的核心架构基于“虚拟机+多Agent协同”模式,通过整合多个底层大模型(如GPT-4、Claude 3等)的API,实现任务的动态分配与模型调用。

Manus突破了传统AI助手仅生成建议的局限,实现了从“需求输入”到“成果交付”的端到端闭环。

Manus提出“Less Structure, More Intelligence”的交互理念,通过无代码化的自然语言接口降低用户使用门槛。

与此同时,Manus使用一个外置的markdown文件来管理Agent的任务规划,并且将阶段性的工作成果存储为独立文件,这也是一个非常有趣的创新点。

(2)Manus的不足与缺陷

Manus在MultiAgent的道路上提供了一种非常有趣的思路,但现在依然存在一些显而易见的不足之处。

首先是“幻觉累加”的问题。

Agent的本质是多次大模型问答的串并联。如果单次大模型问答的准确率是90%,串联10次的话,最终Agent回答准确的概率是0.9^10,只有1/3左右了。

在下面的案例中,Manus的任务是针对某上市公司进行财务数据分析。Manus很聪明的import了data_api模块,准备从雅虎提供的接口中调取财务数据。

但是在process_financial_data函数中,manus竟然把revenue、gross_profit等数据直接“硬编码”到了代码中,让人猝不及防。而且经过验证,这里的数据有部分是错误的。

如果原始数据出错了,那么后续无论分析得多么深入、图表做得多么fancy都失去了意义。

Manus的第二个问题是可供大模型调用的工具不足

下面这个例子中,Manus的任务是写一篇关于“小米Su7”的市场分析报告PPT。

Manus完美的拆分了任务,并且检索了大量新闻,但是最后它无法生成一份PPT,因为它无法调用Office软件。

目前Manus输出的内容形式多为纯文本或者网页,还无法和人类工作流进行完美融合。

Manus遇到的第三个挑战是小院高墙的互联网生态。

互联网上有很多优质信息是存放在“围栏”中的。

比如当我们让Manus去分析比较市面上所有AI智能眼镜的性价比时,它聪明的找到了对应商品的淘宝网页。

但是当Manus想要打开具体产品页面获取价格性能等详细信息时,淘宝判定它为机器人,并拒绝了Manus的访问。

无独有偶,当我们让Manus为一家非上市公司进行出具商业分析报告时,Manus为了获取公司的最新融资进展,访问了CrunchBase数据库。

但是Manus的访问被CrunchBase判定为机器人,随后被无情的拒绝了。

互联网看似公开透明,实则存在大量类似小院高墙的情况,优质信息往往就存放在这些高墙之内,Manus无法直接获取,这无疑阻碍了Manus的工作效果。

尽管有着种种问题和挑战,Manus依然给大家描绘了MultiAgent的巨大前景,打响了Agent元年的第一枪,值得我们给予充分的肯定。

在Manus占据大家视野的同时,海外AI大厂究竟做了哪些技术储备呢?

(3)OpenAI CUA:一个会自主操作电脑的Agent

在今年的1月底,OpenAI发布了由其新模型CUA(Computer-Using Agent)驱动的AI智能体Operator。

CUA模型融合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力,能够将任务分解为多步骤计划,并在遇到挑战时进行在我调整和纠正。

简而言之,CUA就是一个会操作电脑的Agent,它的运作原理非常直白且简洁,如下图所示。

首先,CUA会同时接受两种模态的输入:其一是文本指令,其二是屏幕截图。

CUA会同时处理这两种信息,并且生成一系列动作指令,比如“点击屏幕上坐标为(300,200)的点,并且输入XXX,按回车”。

电脑接受到指令并完成操作后,会将新的屏幕截图与新的任务指令返回给CUA,如此循环往复,直到获得最终答案。

那么CUA目前操作电脑的能力达到了怎样的水平呢?

根据OpenAI的官方测评,CUA在操作电脑和操作浏览器这两个场景上,相比上一代SOTA都有了巨大的性能提升。

但是相比人类而言,依然有着较大的差距。换句话来说,目前顶级的Agent依然没有办法像一个成年人一样正确的操作电脑,但我相信这个现状在今年内就会发生质变。

(4)Anthropic MCP:AI时代下的TCP/IP协议

刚才在分析Manus的缺陷时,提到了“工具不足”的问题。

Anthropic显然也意识到了这个问题,并在去年年底推出了MCP来从根源上解决这个问题。

MCP的全称是Model Context Protocol,它定义了应用程序和AI模型之间交换上下文信息的方式,这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型。

MCP之于AI,有点类似于TCP/IP之于互联网。

MCP有三个重要特点:

标准协议:将AI与所有工具层的交互接口统一成一个标准

动态发现:AI能够按需寻找并调用能够完成指定任务的工具或服务

双向通信:AI与工具之间的通信是双向的,有状态的。AI既能从工具获取数据,也能向工具发送指令。

当前越来越多的工具及服务开始接入MCP,呈现愈演愈烈之势,包括Google Maps、PGSQL、ClickHouse(OLAP数据库)、Atlassian、Stripe等等。

在Smithery平台上你可以轻松查找不同功能对应的工具及服务。随着越来越多的Server接入MCP协议,未来AI能够直接调用的工具将呈现指数级增长,这能从根源上打开Agent能力的天花板。

(5)2025年AI发展新趋势:后训练、RL、MultiAgent

这里我结合最近几个月以来的观察和思考,总结一下25年AI发展的几点重要趋势。

第一,预训练即将终结,后训练成为重点。

这其实已经是行业共识。去年年底时,Ilya在NeurIPS大会上提到一个重要观点:数据是AI时代的化石燃料,因为我们人类只有一个互联网。

与此同时,在今年DeepSeek R1的论文中,提到了后训练将成为大模型训练管线中的重要组成部分。

第二,针对后训练而言,强化学习将成为主流,监督学习的重要性逐渐下降。

DeepSeek R1带来最重要的启发是:纯粹的RL可能是通向AGI的正确路径。

随着TTS的增加,大模型会自我涌现出复杂的推理行为,而无需刻意引导。

如下边右图所示,横轴是大模型RL的迭代步数,纵轴是单次问答的token长度。我们可以看到,随着大模型RL步数的增加,大模型会自主的从“快思考”变成“慢思考”,从最开始每次回答100个token,到最后每次回答接近10000个token。

DeepSeek团队将这种现象称为“self-evolution”,并认为它是“the emergence of sophisticated behaviors”。

具体是哪些复杂行为的涌现呢?DeepSeek也给出了答案,比如:self-verfication, reflection等。

这个发现对于我们来说有着重要的启发。未来监督学习在AI训练中究竟应该扮演怎样的角色?监督学习是否反而限制了AI解决问题的能力?

是否不应该让AI通过模仿人类的思维方式来获得智能,而是让AI发展出更加原生的智能?

这些问题,都有待整个AI行业通过实践来给出答案。

第三,MutiAgent是确定性的大趋势。

如果将AI和人脑进行类比的话,大模型就像是人脑中的“前额叶”。

众所周知,前额叶主要负责高级认知功能,比如注意力的分配、思考推理、决策等。

但是仅仅有前额叶,大脑是无法处理复杂任务的。我们需要有颞叶来进行听觉信号的解析,需要顶叶进行阅读和算术,需要小脑来进行运动协调,需要海马体来进行记忆索引。

MultiAgent的定义恰恰就是让多个不同的模型之间互相协调,从单独的“前额叶”走向“完整的大脑”,从而处理更加复杂的现实任务。

在这个蓝图中,MCP就起到了非常重要的作用:协调统一大模型与各工具之间的数据通信接口。

(6)结语:抓好扶手,未来已来!

2025年是AI Agent元年,Manus的出现打响了第一炮。

无论是OpenAI的CUA还是Anthropic的MCP都指向了一个共同的未来,未来2年AI的发展速度将非常陡峭。

抓好扶手,未来已来!

作者 | 费斌杰 北京市青联委员 熵简科技CEO

作者:费斌杰

来源:Alpha Engineer

]]>
Manus的海外口碑也渐渐起来了 //m.clubpenjuin.com/364893.html Fri, 14 Mar 2025 01:10:23 +0000 //m.clubpenjuin.com/?p=364893

 

Manus终于火到海外了。

上周,Manus横空出世,以全球首款通用AI Agent在国内社交媒体上刷频。但爆火同时也被质疑存在过度营销之嫌,其中一大质疑是,Manus的”爆火”主要局限于国内,在海外却无人问津。

而这个周末,Manus开始破圈了,福布斯等主流媒体开始关注,也成为海外科技博主热议话题,一众科技大佬纷纷展开测评,有媒体称热度甚至赶超流行音乐女王霉霉的演唱会。

热议之下,Manus获得不少好评。比如知名AI博主Rowan Cheung称之为中国的“第二个DeepSeek时刻”,Hugging Face的产品负责人称Manus是他尝试过的“最令人印象深刻的AI工具”。

不过,也有用户在测试中发现体验并不顺畅而持保留态度。

01 世界上第一个完全自主的AI代理

3月8日,福布斯文章称,Manus这个来自中国的AI代理正在改变一切。

福布斯称Manus是一个能够独立思考和行动的革命性AI代理,重新点燃了一个已经持续了几十年的辩论:当人工智能不再寻求许可,而是开始自己做决定时,会发生什么?

在福布斯看来,Manus不仅仅是一个聊天机器人,也不是一个披着未来主义品牌的改进搜索引擎。它是世界上第一个完全自主的AI代理:

一个不仅仅协助人类的系统——它取代了人类。从分析金融交易到筛选求职者,Manus在数字世界中无需监督地导航,以一种即使是经验最丰富的专业人士也难以匹敌的速度和精确度做出决策。本质上,它是一个数字通才,被训练来管理跨行业的任务,而没有人类犹豫不决的低效。

02 第二个DeepSeek时刻

知名AI博主、曾专访扎克伯格并率先发布Llama-3开源消息的Rowan Cheung转发了Manus的官方视频,并将Manus比作“中国的第二个DeepSeek时刻”,并预测其进入美国市场只是时间问题。

这是Rowan首次发文讨论Manus。目前,这条推文评论接近600条,浏览量超260万。

Rowan在评论里介绍了自己的体验经过。在收到邀请码后,他先测试了Manus创建个人传记并基于此传记部署网站的能力。Manus通过他的社交渠道、浏览文章,并成功部署了网站,且信息100%准确,包括最新的信息。

接下来,Rowan测试了Manus在提供实用信息方面的表现,例如寻找旧金山最佳租车地点,要求满足低犯罪率、大量人工智能活动和高密度的雄心勃勃的年轻企业家。Manus提供了4个非常准确的选项。

Rowan进一步测试了Manus完成长时间研究任务的能力,要求它创建一门关于内容创作人工智能的完整课程。Manus花了近2个小时完成,最终提供了一门包含8章的课程,其中包含工具、用例和提示示例。

一番体验下来,Rowan认为Manus“并不全是炒作”。

专注于搜索引擎优化(SEO)的X用户Julian Goldie直言,在看到Manus的实际效果后,他取消了每月200美元的ChatGPT订阅,他认为Manus正在重新定义浏览器自动化的功能。

经过测试,Goldie总结了Manus的强大功能:能够同时控制50个浏览器、实时创建和编辑文件、部署功能齐全的网站……

不仅如此,Goldie认为Manus在效率提升和成本节约上都能“秒杀”竞争对手,不仅在研究方面比任何竞争对手都更快,能够快速生成综合报告和可视化效果,而且使用Manus可以节省数千美元。

Hugging Face的产品负责人Victor M测试了Manus的代码生成功能,展示了Manus编写的一个使用Three.js库控制飞机的游戏。

Victor M大为惊叹,称他尝试过的“最令人印象深刻的人工智能工具”。他表示,Manus的用户体验(UX)是许多其他工具承诺过的,但Manus真正实现了。

X用户Umar Jamil分享了使用了Manus 来帮他在伦敦找房子的过程,他对Manus推荐的社区非常满意,并且很快就要搬过去了。

Umar Jamil的需求是在伦敦找到一个公寓,要求通勤时间不超过一小时,租金不超过1750英镑,至少有一间卧室和一个大客厅。

Manus 花了大约10分钟内完成了研究任务,通过创建一个待办事项列表来构建研究计划,并将所有中间结果保存在文件中,随着找到更多信息不断编辑这些文件。它会浏览互联网,寻找所有与研究相关的有用信息。

最后,Manus 推荐了几个区域,并推荐Walthamstow Central为最佳选择,因为它通勤时间仅为17分钟,租金在1300至1700英镑之间,且在预算内有较大的居住空间。

找到满意房子后,Umar Jamil连发数条推文表达他的震撼,称Manus ~= Claude + MCP*1000 + Deep Research+ Operator,还发问:“马拉多纳是‘上帝之手’,Manus会是‘AGI之手’吗?”

03 耗时太长、信息不准…吐槽也不少

Manus在海外的快速崛起也伴随着争议,一些用户和专家对其技术成熟度提出质疑,也有一些早期用户表示体验Manus的过程并不顺畅,而且存在一些事实性错误。

AI初创公司Pleias的联合创始人Alexander Doria在测试Manus时遇到了错误信息和无限循环的问题。

Jackson Laboratory 教授Derya Unutmaz对比了OpenAI的Deep Research和Manus的性能。

Deep Research在不到15分钟内完成了任务,而Manus AI在运行50分钟后,在步骤18/20时失败了。

Unutma观察了Manus AI的输出,认为其表现相当好,并进行了第二次尝试。但第二次尝试在20分钟后,在步骤9/20时也失败了,Unutma推测可能是Manus AI的服务器过载。

也有用户指出,Manus在事实性问题上会犯错误,并且并不总是引用其工作来源,有时会遗漏很容易在网上找到的信息。

X用户Teortaxes认为Manus是一个针对社交媒体影响者极度优化的产品,这解释了它为何如此受欢迎:

该产品在生成主题内容、旅行计划等一般兴趣方面表现良好,但在STEM领域协助和编程方面表现不佳,甚至不如使用谷歌搜索。

Teortaxes提到Manus AI在处理某些任务时的输出质量不高,与将文档直接输入ChatGPT/Gemini相比没有太大优势,称之为“相当标准的GPT废话”。

TechCrunch记者Kyle Wiggers自己对Manus的体验也不太好。

他让Manus处理一个看似简单的请求:从他所在地区的顶级快餐店订购一份炸鸡三明治。大约十分钟后,Manus崩溃了。在第二次尝试中,Manus找到了符合他标准的菜单项,但无法完成订购过程,甚至无法提供结账链接。

Wiggers还让Manus预订从纽约到日本的航班,但Manus只能提供几个航空网站和像Kayak这样的机票搜索引擎的链接,其中一些链接是无效的。此外,Manus在尝试预订附近餐厅的座位和构建一个以《火影忍者》为灵感的格斗游戏时也失败了。

04 Manus的双重颠覆:加强中国AI叙事,重定义智能边界

眼下Manus还需要邀请码才能用,它到底是AGI降临的前奏,还是又一个过度营销的AI产品?等更多人用上了,市场自然会给出答案。

无论如何,Manus的横空出世为AI发展带来了双重突破。一方面,Manus进一步加强了中国AI的叙事。多年来,全球AI叙事一直围绕着OpenAI、谷歌、Meta等美国科技巨头展开。而Manus继DeepSeek之后,再次证明了中国在AI领域的实力。

另一方面,Manus颠覆了AI发展的既定路径。过去,业界普遍认为谁能打造出更强大的语言模型、更复杂的聊天机器人,谁就能主宰AI的未来。而Manus的出现打破了这一路径——它不仅仅是对现有AI的迭代升级,而是开创了一个全新的智能范式:从被动响应指令到主动规划行动,从聊天机器人到自主代理,Manus或许正是AGI破茧而出的第一道曙光。

作者:叶桢 华尔街见闻

来源公众号:锦缎

]]>