微软 – 青瓜传媒

GPT-5即将发布？微软Copilot憋大招

青瓜传媒 — Sat, 02 Aug 2025 00:15:43 +0000

GPT-5的新爆料又来了！GPT-5-Alpha已经由Cursor团队内部测试，几乎能一次性完成任何任务；Perplexity已在网站上完成GPT-5发布的准备工作；微软工程师也在紧锣密鼓为GPT-5做准备，将很快在Copilot中发布。GPT-5，它真的越来越近了。

每天一睁眼，都能感觉GPT-5更近了一点。

刚刚，又是一大波关于GPT-5的消息曝出。

首先，GPT-5-Alpha已经在由Cursor团队内部测试。这个模型表现惊艳，几乎能一次性完成任何任务。

比如下面这个「水族馆游戏」的挑战，模型就顺利完成了。

并且就在几小时前，在macOS ChatGPT应用中，已经有人发现了GPT-5-Auto和GPT-5-Reasoning模型。

有眼尖的网友注意到了泄露信息中「reasoning」这个字眼，猜测道：这表明GPT-5很可能已经有了o系列模型。

同时，Perplexity已经在网站上完成了GPT-5发布的准备工作。一旦GPT-5发布，Perplexity Pro的用户就能立刻使用了。

微软已准备在AI套件中发布GPT-5

同时，已经有人发现，微软的Copilot Smart Mode，将由GPT-5提供支持。

有人猜测，GPT-5的路由器部分可能已经在逐步推出。

总之，微软正准备在AI套件中发布GPT-5，包括Copilot（消费者版）和 Microsoft 365 Copilot（企业/工作版），以及Azure（企业/API客户）。

据悉，Windows 11的Copilot应用程序具有「智能」模式，可以根据查询在GPT-5的推理/非推理模式之间切换。

甚至，Windows 11 Copilot的免费版，也将拥有基于GPT-5的「智能」模式，因此GPT-5并不会仅限于付费用户使用。

微软工程师，紧锣密鼓为GPT-5做准备

同时，The Verge也刚刚发文表示，微软正在准备推出GPT-5的全新Copilot智能模式。

据微软内部人士透露，微软正在消费者版和商业版的Microsoft 365 Copilot中测试GPT-5的智能模式，这就跟上面的爆料吻合了。

而且据说，在消费者版中，这个模式中的AI可以「根据任务进行深度或快速思考」，所以用户无需选择模型。

这也跟奥特曼此前透露的想法相一致。

奥特曼在二月表示，「我们和你们一样讨厌模型选择器，希望回归神奇的统一智能。」

同时，GPT-5还将包含o3模型，而不是将其作为独立版本发布。

The Verge记者猜测，这种智能模式提前出现在Copilot中，是因为微软工程师正在为GPT-5的发布做准备。

总之，如果OpenAI对GPT-5的准备工作一切顺利，那么Copilot的智能模型将很快出现在大家面前。

以上，就是今天的新一波关于GPT-5蛛丝马迹的爆料。

有网友感慨道：现在大模型的开发周期实在太快，营销速度都赶不上发布速度了。

OpenAI研究员：我再次相信AGI

GPT-5现在已经是山雨欲来风满楼，就在这个时间点，OpenAI研究员Alexey Guzey发了一篇文章，题为《为什么我再次相信 AGI》。

在这篇文章中，或许我们能窥见GPT-5的种种迹象。

以下为文章大意。

为什么我现在又相信AGI了？

首先，我现在确信 ChatGPT 能够理解它所读的内容。其次，推理模型让我相信ChatGPT 具有创造力。第三，ChatGPT能极其出色地总结文本，我认为这是衡量智能的一个可靠标准。

同时，我不相信「通用智能」，所以我认为AGI这个概念并没有什么意义。

最后，AI产品现在已经能为AGI研究提供资金，这意味着AI已经达到了自我改进循环的早期阶段。

因此，许多关于「AGI」和「超级智能」的时间线讨论，已经过时了。

ChatGPT能理解它所读的内容

对我来说，AGI与理解有关。ChatGPT是真的理解了，还是只是一个愚蠢地将输入映射到输出的中文房间？

我现在认为，它确实理解了。

真正让我信服的是这一条推文。有人嘲笑OpenAI的o1模型没有发现，他提出的逻辑谜题其实有个很简单的解决方案。

第一看到这条推文，是在24年9月。

25年4月，我又看到了，于是试试o3模型是否也会犯同样错误？

结果，o3的确也翻车了。

但我后来又想到，如果模型确实理解了这个谜题，只是没有足够关注它呢？于是我要求它更仔细地读题，于是解决了问题。

o3 一旦仔细阅读，就能毫无困难地解决一个从未遇到过的新谜题。

或者以这个来自GPT-3的greentext为例：

你能读懂这个绿字文本，说ChatGPT是一个无意义的随机鹦鹉吗？我不能。

对我来说，这些例子非常有说服力地表明，ChatGPT是一个真正智能的实体，我们正在朝构建AGI的道路上稳步前进。

再比如，那个经典的「9.11和9.9哪个更大」的问题。

之前我们每次都会因此嘲笑AI，但最近我仔细思考了一下，认为这是一个上下文的问题，而不是智能的问题。

确实有很多情况下，9.11比 9.9大（书籍、学术论文、软件版本）。如果没有提供其他信息，ChatGPT认为9.11大于9.9，这并非不合理。

事实上，每当我嘲笑ChatGP 时，六个月后它都会反过来嘲讽我，这让我越来越难以坚持，认为它是愚蠢的。

LLM具有创造力

或者说：LLMs + RL = 智能的第37步。

有人曾问过：我们该如何看待这样一个事实：尽管这些模型几乎记住了世界上所有已知的事实，但它们还没有做出任何新的发现？

强化学习在LLMs上的应用，让我相信这不是一个问题，因为每当强化学习生效时，它都会发现新颖且富有创意的解决方案。国际象棋。围棋。数学。物理模拟。电子游戏。莫不如是。

RL = 创造力。这就是范式。

尤其，当我读到Karpathy关于第37步的推特文章时，一切都变得清晰了。

第37步，指的是一个通过RL的试错过程训练出来的人工智能，发现了即使是专家也感到新奇、惊讶且暗藏智慧的操作。

这是一种神奇的、略带令人不安的涌现现象，只有通过大规模强化学习才能实现。你无法通过模仿专家做到这一点。

这是当AlphaGo在与李世石的第二局比赛中下出第37步时的情景，那是一个奇怪的棋步，人类下出它的概率仅为万分之一，但事后看来，这一步却充满创意、极为精妙，最终导致了AI的胜利。

现在，随着新一批「思考型」LLM（例如 OpenAI-o1、DeepSeek-R1、Gemini 2.0 Flash Thinking）的出现，我们开始在开放世界领域中看到类似的最初曙光。

这些模型在尝试解决各种不同的数学/代码等问题的过程中，发现了类似于人类内心独白的策略，而这些策略很难（或不可能）直接编程到模型中。

我称这些为「认知策略」——比如从不同角度解决问题、尝试不同想法、寻找类比、回溯、重新审视等。

尽管听起来很奇怪，但LLM有可能发现更好的思维方式、解决问题的方法、跨学科连接思想的方式，并且以一种我们事后看来会觉得惊讶、困惑，但又充满创意和智慧的方式做到这一点。

正如英伟达的X. Dong所指出的：「经过强化学习训练的模型在某些问题上取得了巨大进展，而基础模型无论尝试多少次都无法理解这些问题。」

几十年前，Tyler Cowen看到AI在国际象棋上击败人类时，就认为AI也会在在其他直觉性的事情上击败我们。

压缩就是智能，而ChatGPT的压缩能力非常出色

当我想要弄清楚某人有多聪明时，我经常问他：某篇文章的主要观点是什么？

这个问题实际上要求的是将许多词（一篇文章）压缩成少数词（一句话），同时丢弃所有不重要的内容。

如果这个人能做到这一点，我会认为ta很聪明。

因此，当我询问ChatGPT同样的问题时，它成功了，而我最聪明的朋友却失败了，我得出结论：它确实非常擅长压缩，并且真的很聪明。

（这跟预测能力跟智能指标密切相关的观点类似。我认为压缩和预测是同一枚硬币的两面，因此ChatGPT在训练过程中通过学习预测下一个单词，顺理成章地也学会了如何很好地压缩文本。）

为什么我认为AGI这个想法很愚蠢

因为我并不相信「通用智能」。AGI通常在某种意义上是参照人类定义的，而我认为我自己是一种极其狭窄的智能。

比如，我无法计算出3289乘以5721。事实上，我甚至无法计算328乘以572！我只能勉强计算32乘以57，而且20%的情况下会出错。

我只能在大约10%的情况下搞清楚我女朋友为什么生气，但大多数时候，我在这方面和一个算盘差不多。

我是否具有通用智能？对我来说，答案显然是否定的。

我可以学习如何做一些零散的事情。通过模仿他人或使用我的电脑，我可以学习做更多事情。但仅此而已。

人类文明和我们的技术进步，并不是由任何一种通用智能所推动的！而是因为我们能够学习如何在这里做一件事，在那里做另一件事。

AGI是否真实存在并不重要

（有趣的是，我是从奥特曼最近的一篇博客中读到了这个观点。）

在过去的几十年里——直到几年前——想得到AGI研究的资金支持，还需要依靠梦想和愿景。

这就是为什么AI行业曾经会经历周期性的寒冬；这就是为什么没有一家AGI公司能够存活超过几年；这就是为什么 AGI曾经是一个与「疯狂边缘」相关的贬义词，正如 DeepMind 联创所说。

今天，由AGI研究而创造的经济价值首次足以支持进一步的AGI研究。每天有数亿人使用ChatGPT，有数百万人为 ChatGPT付费。

人工智能产品之所以为AGI研究买单，是因为它们对我们有用。

没有人类，人工智能无法产生经济价值，因为经济价值的概念本身就关乎人类认为有价值的东西。因此，人工智能自我改进的能力完全依赖于它继续对我们保持有用。

AI的进步比任何人预期的都要平稳，它的「有用性」更多地依赖于非智能的辅助结构，也超出了任何人的预期。

所以我认为，现在我们何时构建「AGI」或「超级智能」，真的已经不重要了。人工智能研究能够自给自足 = 人工智能已经到来并将持续改进。

我经常思考过去那些真正改变世界的技术。

例如，印刷术在16至19世纪彻底重塑了世界，引发了基督教改革、百年战争、现代民族国家的形成，以及最终的科学和工业革命。那项技术本身并不包含任何智能。

但它改变了信息传播的方式，极大地提升了思想的力量和识字的价值，并赋予我们追求目标时掌握的强大新能力。

人AI已经在让我们个人和人类群体在影响世界的能力上得到了极大的提升。我们如何利用这种能力，取决于我们自己。

作者：Aeneas

来源：新智元

微软即将推出AI Agent

青瓜传媒 — Mon, 28 Apr 2025 01:10:36 +0000

在一次独家采访中，微软体验与设备部门首席产品官阿帕娜·切纳普拉加达（Aparna Chennapragada）向VentureBeat表示，公司正在打造一个愿景，旨在让人工智能不仅仅作为一种工具存在，而是成为日常工作中的重要合作伙伴。

“我们即将迎来人工智能领域的一个重要时刻。”切纳普拉加达说道，“这一切始于各种模型的进步，大家对此感到非常兴奋，并对智能的广泛应用充满期待。现在的重点是确保这种智能能够被所有人利用，尤其是在工作场景中。”

该公告伴随着微软发布的2025年《工作趋势指数》，这是一份基于对31个国家的31,000名员工调查结果的综合研究报告。报告记录了微软所称的“前沿企业”的崛起——这些组织正围绕人工智能驱动的智能技术和人类与智能Agent的协作进行重组。

微软设想人工智能的采用将经历三个阶段的演变，最终形成“人类主导、代理人操作”的工作场所，员工可以在那里指导人工智能系统。

微软的新“研究员”和“分析师”Agent如何将深度推理引入企业工作

微软愿景的核心是两个名为“研究员”和“分析师”的新型人工智能Agent，这些Agent由OpenAI的深度推理模型提供支持。这些智能体旨在处理以往需要专业人类技能才能完成的复杂研究任务和数据分析工作。

你可以把它们想象成口袋里的超级聪明研究员和数据科学家，”切纳普拉加达解释道。她描述了研究员Agent如何最近在一次业务审查准备中帮助她，通过连接多个来源的信息，提供了支持。

“我当时是这样用它的：‘嘿，我有一个重要的业务评审要进行……把过去的会议记录、以前的邮件、CRM（客户关系管理）数据全都整理出来，然后告诉我一些具有建设性且尖锐的建议，帮助我推动这次会议的进展。’”她说道，“因为它具备深度推理能力，实际上还发现了一些我之前没想到的关联。”

这些Agent将通过新的“Agent商店”提供，该商店还将展示来自合作伙伴的Agent，如Jira、Monday.com和Miro，以及由各组织自行构建的自定义Agent。

微软数据显示，员工每两分钟就会被打断一次，紧急任务激增，微软将这种现象称为“产能缺口”。

超越聊天：Copilot如何成为微软企业战略中的“人工智能浏览器”

微软将Copilot定位为人工智能交互的核心组织层，类似于网络浏览器组织互联网内容的方式——而不仅仅是一个聊天机器人界面。

“我将Copilot视为AI世界的浏览器，”切纳普拉加达说道。“在互联网时代，我们有网站，但浏览器是用来组织这一层级的。对于我们来说，Copilot就是这个组织层，这个AI世界的浏览器。”

这一愿景超越了简单的文本交互。公司正在推出“Copilot笔记本”，用户可以将人工智能交互与特定的文件集合和会议记录相结合。一项新的“Copilot搜索”功能提供了跨多个应用程序的人工智能驱动企业搜索能力。

“如今，大多数人工智能，我们已经将其等同于聊天功能，”切纳普拉加达指出。“有时候我感觉我们还处在图形界面（GUI）出现前的DOS时代，那时你拥有令人惊叹的智能，却仿佛还在使用顶着一个AOL拨号调制解调器的设备。”

为了解决这一限制，微软正将OpenAI的GPT-4模型的AI图像生成功能引入商业环境。通过一项新的“创建”功能，员工可以生成并修改符合品牌规范的图像。

80%的员工表示时间或精力不足，微软认为人工智能Agent是解决生产力差距问题的关键。

员工倦怠和工作场所中断：推动微软人工智能重点的“产能缺口”

微软的研究揭示了一个显著的“能力差距”：53%的领导者表示生产力必须提升，但全球80%的员工却表示缺乏足够的时间或精力完成工作。公司的遥测数据表明，员工每天会面临275次来自会议、邮件或消息的打扰在核心工作时间里，每两分钟就会被干扰一次。

“对于工作的需求、生产力和产出的潜在需求还有许多被压抑和隐藏的部分，”切纳普拉加达说道。“这一统计数据令我印象深刻，那就是针对工作的需求、生产力和产出的潜在需求远远超出预期。所以我认为这更像是一种提升，而不是工作职位的取代。”

研究还表明，人工智能的采用模式正在发生转变。去年，人工智能的采用主要由员工主导，而今年则呈现出一种自上而下的趋势，81%的企业决策者表示，他们希望利用人工智能重新思考核心战略和运营方式。

“这与去年甚至更早的情况有所不同，那时更多是自下而上的、由员工主导，”切纳普拉加达指出。“这表明我们需要更加注重自上而下的人工智能战略，同时也需要在企业内部推出具备安全性、合规性以及各类保护措施的人工智能产品。”

领导者在“Agent老板心态”的每个衡量标准上都超过了员工，微软的研究显示，他们在熟悉人工智能Agent方面的差距达到了27个百分点。

“Agent老板”的崛起：微软如何设想员工管理数字劳动力

微软预测，组织将围绕其称之为“工作图谱”的概念进行根本性重组。这种结构更加灵活，以成果为导向的团队形式由能够扩展员工能力的智能Agent驱动。

此次重组将需要确定针对不同职能的最佳“人机比例”，这一指标将因任务和团队而异。公司期望每位员工都能成为一名“智能Agent主管”，即能够管理人工智能Agent以放大自身影响力的人。

对于我们微软来说，仅仅让客户公司中的2%采用人工智能还远远不够，而是要真正让整个公司都参与进来。只有这样，才能真正实现全面的生产力提升。”切纳普拉加达强调道。

公司的研究显示，在接受这一思维方式方面，领导者目前比员工更具优势，有67%的领导者熟悉Agent，而员工的比例仅为40%。

为了帮助组织顺利应对这一转型，微软正在增强其Copilot控制系统，新增功能使IT管理员能够在全组织范围内管理Agent。

“如果让所有这些[Agent]四处运行会怎样？我们的客户一直在提出这样的需求。”切纳普拉加达说道，“我们开发了一个Copilot控制系统，IT管理员可以通过它查看合规性、安全性、数据隐私，以及系统中有哪些Agent。管理员如何真正管理这些Agent？”

找到人类判断和人工智能辅助之间的最佳平衡至关重要，因为Agent数量太少或太多都可能降低生产力。

研究表明，“前沿企业”在人工智能采用方面领先，其表现远远超过竞争对手

商业影响不仅限于生产力的提升。微软的研究显示，在处于人工智能采纳前沿的“先锋企业”中，71%的员工表示他们的公司正在蓬勃发展，而在全球范围内，这一比例仅为37%。

对于中小型企业来说，智能的普及化可能会让竞争环境更加公平，让小型团队也能够拥有曾经仅限于大型组织的能力。

虽然有33%的领导者正在考虑因人工智能而裁减员工，但同时也有78%的领导者正在考虑为新的人工智能相关职位进行招聘，包括人工智能培训师、数据专家、安全专家以及人工智能Agent专家等角色。

研究中包含的LinkedIn数据表明，最著名的人工智能初创企业的员工数量同比增长了20.6%，几乎是大型科技公司10.6%增长速度的两倍。

随着现有企业的适应和挑战者的扩展，就像我们在互联网泡沫时期看到的那样，人才和竞争的规则正在实时重塑，公司在报告中指出。

随着微软全新AI工具自5月底开始推出，正如切纳普拉加达所称的“AI世界的浏览器”正在逐步登场。正如以往的技术革命从根本上改变了我们的工作方式一样，人类与智能Agent协作的转变不仅将重新定义工作内容，还将改变由谁或由什么来完成这些工作。（Venture Beat）

作者：AI新智能

来源：AI新智能

微软的AI游戏翻车了？

青瓜传媒 — Tue, 15 Apr 2025 03:30:27 +0000

“AIGC（生成式人工智能）将彻底改变游戏开发行业，对于其他普通到专业级的开发者，建议可以考虑转行了”，这是米哈游创始人蔡浩宇在去年夏季的论断。

事实上，用AI技术来重塑游戏开发，这也确实是这两年游戏圈的一大热点。

01

那么，普通的游戏开发者真的要趁早转行吗？

最近微软亲自上阵为AI游戏祛魅，给这些开发者吃下了一颗定心丸。4月5日，微软方面发布了用AIGC技术打造的《雷神之锤2》DEMO，试图向外界展示自家世界与人类行动模型“Muse”的强大。

可遗憾的是，微软这次不仅没能实现秀肌肉的目的，反而诠释了何为丢人现眼。海外科技媒体lifehacker在体验过AI版《雷神之锤2》的DEMO后发布了一篇报告，并认为AI版《雷神之锤2》不像游戏，反而类似于“不断崩塌的梦境”。

lifehacker方面指出，抛开640×360分辨率所带来的模糊画面，以及超低FPS引发的操作延迟，AI版《雷神之锤2》的DEMO中存在敌人会凭空闪现，且无攻击逻辑、角色生命值归零也不会死亡、转身可能导致房间变电梯，以及加载界面卡死、敌人会在平移时消失等一系列BUG。

然而微软在宣传Muse模型的时候，将其定位为可以帮助游戏开发者制作游戏原型的产品，称其能够生成游戏视觉效果、控制器动作。在微软方面发表于《Nature》的论文中就表示，Muse最大的亮点是对3D游戏世界的深度理解，并称它不仅仅是一个简单视频生成工具，而是能够精准模拟游戏中的物理规则和玩家行为。

简单来说，Muse并不是一个优化游戏开发过程的工具，与当下许多游戏厂商流行的用AI绘画工具Midjourney生成图形资产、用AI驱动额度3D模型工具Cube完成角色和场景构建，以及用ChatGPT完成剧情编写等优化游戏开发管线的AI工具截然不同。

由于Muse能够直接生成游戏画面，这也是为什么微软方面会宣称，传统游戏开发需要数月甚至数年，进行角色设计、动画制作和游戏测试，如今Muse能够将这一周期从几个月缩短至几分钟。按照他们的说法，当玩家按下手柄上的按键，Muse就可以预测游戏世界的动态变化，并生成与之匹配的连贯画面。

想要跳过建模、光栅化等传统渲染管线，直接一步到位给出画面，Muse终究还是心急吃不下热豆腐。其实Muse翻车的原因很简单，在当下AI模型“幻觉”问题无法妥善解决的情况下，直接用其生成游戏画面还不可控，这也就注定了所生成的DEMO只能是机械地拼凑各种元素，还很难被称为游戏。

02

事实上，立足于当下的AI技术打造纯粹AI游戏这件事，米哈游创始人蔡浩宇的Anuttacon公司在不久前低调测试的《Whispers from the Star》，才是更有现实意义的一款作品。《Whispers from the Star》的故事很简单，讲述的是一名意外迫降在外星的宇航员，而玩家则将作为她唯一能联系上的人，需要通过实时语音了来引导她离开外星。

不同于FPS游戏《雷神之锤2》，《Whispers from the Star》其实更类似于《完蛋！我被美女包围了！》这种视觉小说(visual novel)。而且《Whispers from the Star》的设计也相当取巧，它的游戏结构类似于数年前曾爆火的文字冒险手游《Lifeline》，只不过增加了玩家通过实时互动调动女主角的动作和情绪。

即便《Whispers from the Star》被一些网友调侃为“聊天模拟器”，但它也是一个正经的、能运行起来的游戏。可反观看起来与传统游戏类似的微软AI版《雷神之锤2》DEMO，则完全称得上是“金玉其外败絮其中”，Xbox方面最好还是搁置在多款游戏中使用Muse模型的计划。

尽管AI游戏确实可能是未来，但是当下AI模型的水平还不足以支撑AI直接生成游戏，一步一个脚印才是正道。

作者：三易菌

来源：三易生活（ID：IT-3eLife）