Codex – 青瓜传媒

Codex 比 Claude Code 强在哪？

青瓜传媒 — Thu, 30 Apr 2026 01:55:58 +0000

这两天把 Codex App 从头到尾跑了一遍，我原本只是想整理一篇保姆级教程。

但越用越觉得，这件事不只是教程问题。

AI 编程工具的竞争，已经不能只看谁更会写代码了。

Claude Code 当然很强。它在终端里非常顺手，能读项目、改文件、跑命令、接 MCP，也有权限控制、沙箱、子 agent、桌面端和 Web。对很多工程师来说，它就是一把很锋利的刀。

但 Codex App 给我的感觉不太一样。

它不是单纯把刀磨得更快，而是把砧板、刀架、备菜区、出菜口都摆好了。

你拿到的不只是一个会写代码的 AI，而是一套能让 AI 被安排、被约束、被审查、被交付的工作台。

我觉得这才是 Codex 最值得聊的地方。

沙箱：先把边界画出来

很多人用 AI 写代码，真正怕的不是它写不出来。

怕的是它太能干。

你让它改一个小需求，它顺手动了好几个文件；你让它跑一下测试，它想联网装依赖；你让它整理项目，它可能碰到你根本没打算让它碰的目录。

嘴上说“交给 AI”，身体却很诚实，一直在旁边盯着。

因为你不只是在看它会不会写代码。

你是在看它会不会越界。

Codex App 让我眼前一亮的第一点，就是它的权限控制是围绕沙箱展开的。它会把当前项目文件夹作为一个沙箱来管理。默认情况下，Codex 可以直接读写沙箱内的文件，不会每改一个文件都跑来问你。

这点很重要。

如果 AI 在项目文件夹里正常开发，每一步都要你确认，那最后用户很快就会变成权限弹窗管理员。

但 Codex 又不是完全放开。默认情况下，它不能修改沙箱外的文件，也不能联网。需要访问项目外目录、下载依赖、执行更高权限操作时，它会发起提权申请，也就是 escalate。

这套机制最舒服的地方在于，它不是让你审每一步，而是先把边界画出来。

边界内，AI 自己干。

边界外，停下来问你。

这就把“过程监督”变成了“边界监督”。前者很累，你要一直盯着它下一步想干嘛；后者轻很多，你只需要知道它在哪个盒子里工作，以及什么时候想跑出盒子。

我自己比较推荐自动审查模式。低风险提权自动放行，高风险操作再让人确认。日常用下来，它在安全和效率之间的平衡感比较好。

这也是我觉得 Codex 和 Claude Code 体验差异最大的地方之一。

不是说 Claude Code 没有安全机制。Claude Code 也有权限控制、沙箱配置、allow/ask/deny 规则，这些能力都很强。

但 Codex 把沙箱放在了整个产品体验的底层。你从打开项目开始，工作区、权限、审批、联网、上下文都围绕这个沙箱运行。

它不是一个“高级设置里的安全选项”。

它是你敢不敢放手的前提。

它不是聊天框，而是任务列表

Codex App 的三栏布局，看起来很朴素，但我越用越觉得它抓住了一个关键点。

左侧是任务列表，中间是对话窗口，右侧是多功能区域。

你可以在不同项目里开多个任务，也可以在同一个项目里开多个对话。我测试的时候，同时开了三个任务：一个项目做 HTML 单页宠物洗护店网页，一个项目做 React 待办事项工具，另一个对话单独问 React 框架问题。

三个任务一起跑，左侧能看到状态。有的正在执行，有的等待批准，有的已经完成。

这不是简单的界面好看。

它意味着 Codex 没有把 AI agent 当成一个聊天窗口，而是当成一组可以管理的工作任务。

以前我们用 AI 编程，经常是“我和模型聊一个问题”。到了 Codex 这里，更像是“我在调度几个 agent 干活”。

这个变化对产品经理、小团队负责人、内容团队会很友好。

他们未必天天待在终端里，也未必想通过一堆命令管理任务状态。他们需要的是一个能看懂、能切换、能接管的工作台。

Codex App 在这点上比传统 CLI 工具更像产品。

Plan 和 Steer，让 AI 别一路跑偏

复杂任务最怕 AI 一上来就开干。

比如你让 Codex 把一个项目改造成 Next.js。如果它直接动手，路线很容易跟你想的不一样。

Plan 模式就是为这种任务准备的。开启以后，Codex 不会马上改代码，而是先给你一份计划。它还会用问题卡片跟你对齐一些关键选择，比如用 App Router 还是别的形态，样式要不要迁到 Tailwind，要不要同时启动本地开发服务器验证。

计划确认后再动手，返工风险会小很多。

Steer 则是另一个很实用的功能。

我测试门店地图时，本来希望 Codex 调用 AI 生图能力，生成一张可爱风格的地图。结果它一开始用 SVG 画了一个很粗糙的示意图。

这种时候，最好的办法不是等它全部做完再返工，而是在执行过程中直接接管方向盘。

我截图告诉它，这图不行，应该调用 AI 绘图能力。Codex 被引导后，很快改用生图方式重新生成，并替换到了网页里。

Plan 是开工前把方向对齐。

Steer 是跑偏时接管方向盘。

这两个功能放在一起，Codex 就不只是一个执行器，而是一个可以被管理的协作者。

AI agent 最麻烦的地方，有时候不是不会干活，而是它会沿着错误方向越干越认真。Codex 至少给了你两个刹车点。

Git、回滚和 Worktree，解决“干完怎么收场”

AI 编程真正进入生产流程后，最关键的问题不是“它能不能写”，而是“写完以后怎么收场”。

我测试的时候，让 Codex 在宠物洗护页面里新增“期望到店时间”字段。做完以后，用 Git 提交保存。后来我又让它调整字段位置，结果看起来更别扭，想当作无事发生。

这时候只回滚对话是不够的，因为代码已经变了。

Codex 的对话分叉可以回到某个对话节点，再配合 Git 把代码回退到对应提交。这样一次不满意的改动，就能从对话历史和代码状态两个层面一起撤回。

这件事很重要。

AI 做得越多，回滚能力就越重要。用户如果不敢撤回，就不敢试错；不敢试错，就不敢让 AI 多做。

Worktree 更进一步。

我创建了两个独立工作树：一个优化客户评价模块，一个优化门店信息布局。两个分支在不同文件夹里并行开发，互不干扰，完成后再合并回主干。

这其实就是给不同 agent 分配独立工位。

以前说多 agent，很多时候只是多开几个聊天窗口。但真正的问题是：多个 agent 同时改代码，现场会不会被污染？做完以后怎么合并？做坏了怎么丢弃？

Worktree 给了一个工程化答案。

每个任务有自己的工作区。做成了就合并，做坏了就移除。

这也是 Codex 更像工程工作台的地方。它不只关心生成，还关心隔离、审查、合并和回滚。

Cloud、插件、Skills、MCP，让 Codex 开始像平台

如果只看本地开发，Codex 已经挺完整了。

但它更大的想象力，是把 AI agent 变成一个可以连接外部世界的平台。

Cloud 模式就是一个例子。

把代码同步到 GitHub 后，Codex 可以在云端运行任务。比如我让它把首页的“期望到店日期”默认设置成明天早晨 9:30，它会初始化云端环境，拉取 GitHub 代码，完成修改，然后创建 Pull Request。

你可以在 GitHub 上审查代码，确认后合并，再同步回本地。

这意味着你不一定非得坐在电脑前才能让 agent 干活。出门在外，用手机审批一下，云端任务也能继续往前推进。

后面还有 agents.md、插件、Skills 和 MCP。

agents.md 解决项目记忆问题。复杂项目里，每次新对话都重新交代背景很低效。把项目规则、作者偏好、技术栈、注意事项写进去，Codex 新开对话时就能自动读取。

插件解决外部服务连接。比如 GitHub、Gmail、Netlify。

Skills 解决专业工作流封装。你可以调用 Remotion skill 做动画，也可以安装网页 PPT skill，把文案生成适合演讲的页面。甚至可以用 Skill Creator，把“视频字幕转图文教程”这种重复工作封装成自己的 skill。

MCP 则把外部工具变成标准化接口。比如通过 Supabase MCP，让 Codex 创建预约业务表，改后端接口，再把表单数据写进数据库。

这些能力叠在一起，Codex 就不只是代码助手了。

它开始像一个 agent 工作平台。

能写代码，能接插件，能固化工作流，能连数据库，能部署网站，能跑自动化，甚至在 Mac 上还能通过 Computer Use 操作电脑。

这才是 Codex 值得重视的地方。

它不是只在增强“写代码”这一个动作。

它是在把 AI agent 干活所需要的环境，一点点收进同一个产品里。

所以，Codex 强在哪？

如果只看模型能力，Codex 和 Claude Code 的差距未必总是很明显。

真正的差异在产品形态。

Claude Code 更像给工程师的一把锋利工具。它贴近终端，配置空间大，适合熟悉命令行、权限、脚本和工程自动化的人。

Codex 更像一个可控工程工作台。它把沙箱、权限、任务、计划、引导、浏览器验证、Git、Worktree、Cloud PR、插件、Skills、MCP 和自动化放进同一个体验里。

这让它对更广泛的用户更友好。

尤其是产品经理、创业者、小团队负责人、内容团队、运营团队。这些人不一定想成为终端专家，但他们确实想把一块工作交给 AI，并且希望自己看得懂它做了什么、知道它有没有越界、确认结果能不能合并。

过去评价 AI 编程工具，我们常问：

它会不会写？
它写得对不对？
它能不能跑通？

现在我会多问几句：

它在哪里写？
它越界时会不会停？
它写完以后，能不能被团队接住？

这才是 Codex 让我眼前一亮的地方。

它不是简单多了几个功能。

它是在告诉用户：你可以把 AI 放出去干活，但不必把整台电脑、整个项目、全部判断权都交出去。

未来真正重要的 AI 编程产品，可能不是那个最会写代码的 agent。

而是那个最能让人放心把工作交出去的系统。

作者：小林LEO

更新越频繁，Claude Code与Codex越像

青瓜传媒 — Mon, 20 Apr 2026 02:40:35 +0000

前几天，OpenAI 正式发布了全新的大模型 GPT-5.4-Cyber。和很多网友的感受一样，这个模型也给我们带来了一种极其强烈的既视感。

这款新模型在目标用户群、应用场景甚至宣发策略上，几乎完全对标了 Anthropic 前些天发布的 Claude Mythos。这种「贴身肉搏」的态势已经到了毫不掩饰的地步。就连《纽约时报》都在最新的报道标题中一针见血地指出：「与 Anthropic 一样，OpenAI……」。

这种同质化的趋势绝不仅仅停留在最底层的基座模型上。如果你把目光投向这两家公司近期发布的一系列产品，你会发现它们正在成为彼此的镜像！

在资本市场的无影灯下，这种趋同更加明显。目前两家公司在二级市场上的估值咬得非常紧，Anthropic 甚至在近期凭借其在企业级市场的狂飙突进，价格略高于 OpenAI。资本的嗅觉最为灵敏，在他们眼中，这两只独角兽正在长出相同的犄角。

看起来，底层大模型的同质化必然会导致上层应用的趋同。

今天，我想和大家探讨的，正是代表着当今 AI 辅助编程最高水平的两个标杆工具： OpenAI 的Codex和 Anthropic 的Claude Code。从曾经的分道扬镳，到如今的殊途同归，它们是如何一步步长成了同一副模样的？

从分道扬镳到殊途同归：双雄的演进史

把时间拨回几年以前，Codex 和 Claude Code 完全是两种不同技术哲学的产物。

Codex 的底层逻辑是「天下武功唯快不破」。它就像是一个跟在你身后、随时准备补全代码的 5 年经验高级开发。

在 OpenAI 的构想中，Codex 是一个轻量级、高互动的终端智能体，它主打快速迭代和交互式编程。它的执行速度极快，在 Cerebras WSE-3 硬件的加持下，能够达到每秒 1000 个 token 的吞吐量。在具体的工作流中，Codex 提供建议、自动编辑和全自动三种明确的审批模式，让开发者始终保持在循环之内。这种设计思路非常符合那些需要快速构建原型、处理高频交互的极客开发者。

反观 Claude Code，它从诞生之初就自带一种高冷且克制的「架构师」属性。

Anthropic 为它注入了处理极端复杂任务的基因。它依赖高达 100 万 token 的庞大上下文窗口，以及独特的「压缩」技术来实现无限对话。Claude Code 的信条是「全局掌控，谋定而后动」。在执行任何动作之前，它会先使用智能体搜索技术吃透整个代码库的脉络，然后协调多文件进行一致性修改。对于那些涉及数万行代码迁移的企业级重构任务，Claude Code 展现出了惊人的统治力。

然而，随着时间的推移以及应用场景的不断下探，这两个原本性格迥异的工具，开始互相抄作业。

图源：MorphLLM

在处理复杂项目时，单体 AI 模型面临的最大瓶颈就是上下文污染。你让 AI 重构鉴权模块，它读了 40 个文件之后，往往就忘记了第一个文件的设计模式。为了解决这个痛点，两家公司给出了几乎一模一样的答案：为每个子任务分配独立的上下文窗口。

OpenAI 很快推出了全新的 macOS 桌面端应用，将任务按项目隔离在不同的线程中，并在云端沙盒里独立运行。Anthropic 则推出了智能体团队架构，允许开发者派生出多个子智能体，它们共享任务列表和依赖关系，并在各自的独立窗口中并行工作。你会发现，无论是叫「云端沙盒」还是叫「智能体团队」，它们在工程实现上的核心理念已经完全重合。

在基准测试的成绩单上，它们也呈现出一种微妙的平衡。GPT-5.3-Codex 在终端任务 Terminal-Bench 2.0 中以 77.3% 的得分领先。Claude Code 则在复杂的 SWE-bench Verified 榜单上拿下了 80.8% 的成绩。它们都在自己的优势区间里做到了极致，同时又在拼命弥补自身的短板。

OpenClaw 效应：推倒高墙的无形之手

如果说两家公司的内部战略决定了它们走向同质化的内因，那么整个开源生态的倒逼则是不可忽视的外力。在这里，我们必须要提到 OpenClaw 给整个 AI 编程工具赛道带来的深远影响。

作为开源社区推出的工作流框架，OpenClaw 的出现可以说是推倒了巨头们辛苦建立的生态高墙。它将大模型与本地终端工具链的交互过程进行了标准化。过去，如何让大模型优雅地调用本地 Git 提交、如何安全地在沙盒中运行测试脚本、如何进行多步推理验证，这些都是 Codex 和 Claude Code 各自引以为傲的专有「黑科技」。

但 OpenClaw 将这些流程抽象成了通用的协议。这意味着，开发者不再需要为了某一种特定的协同模式而被绑定在特定的平台上。开源社区的狂欢让标准化成为了不可逆转的洪流。面对这种情况，无论是 OpenAI 还是 Anthropic，都不得不放低姿态去兼容这种开放的标准。

当底层的技术壁垒被 OpenClaw 这种开源力量拉平，当所有的高级特性都成为了行业的标准配置，Codex 和 Claude Code 唯一的出路，就是在更细微的用户体验层面进行无止境的内卷。这也是为什么我们会觉得它们越来越像，因为在标准化的框架下，最优解往往只有一个 —— 就像是生物的趋同演化。

Codex 正在追赶 Claude Code

虽然 Claude Code 与 Codex 正在趋同演化的道路上，但两者的差异依然存在，甚至 Codex 在某些方面已经更受开发者青睐。

前两天，在 r/ClaudeCode 社区，一位拥有 14 年经验、曾在科技巨头工作的高级工程师 u/Canamerican726 分享了一份极其硬核的测评。

具体而言，他在一个包含 8 万行代码的复杂项目中，分别投入 100 小时使用 Claude Code 和 20 小时使用 Codex。

在他的视角里，使用 Claude Code 就像在指导一个被截止日期追赶的工程师，它冲刺速度极快，却经常会无视开发者在 CLAUDE.md 中写下的规范，并且喜欢在现有文件里不断堆砌代码来完成任务，缺乏重构思维。

相比之下， Codex 给他的感觉更像是一个拥有 5 到 6 年经验的沉稳老手。它的处理速度虽然要慢上 3 到 4 倍，但会在中途主动停下来思考并重构代码，并且严格遵守指令边界。这种高度的自主性，让这位工程师敢于把任务直接扔给它，然后放心地去做其他事情。

同样的声音也出现在 X 等社交网络上。研究员 Aran Komatsuzaki 结合自己的使用体验提到，在前端领域 Claude Code 依然占优，但在后端规划和保持信息更新方面，高频调用网络搜索的 Codex 显然更加扎实。

评论区里充满了真实业务场景下的血泪总结。有开发者极其犀利地指出，基于 Opus 的模型虽然跑得快，但往往会给项目积攒下大量的「代码清洁债务」，Codex 动作慢，却能在前行的同时顺手把地扫干净。我甚至看到有用户总结出了一条生存法则，建议大家在上下文窗口的使用率达到 70% 时立刻开启新会话，否则极其容易收到系统附赠的隐蔽 bug。

这些来自一线的真实吐槽清晰地表明，当两大神器的能力面板越来越重合时，决定开发者最终阵营归属的，往往就是这些关乎「填坑成本」和「维护心智」的微小体验差距，当然对于中国用户还有一些特殊的困难，比如：

冷思考：同质化背后的生态暗战

当然，Codex 和 Claude Code 和优劣还在于各位开发者自己，也要看开发者自身的能力，正如上述 u/Canamerican726 的评测报告总结的那样：如果你不懂软件工程，这两个工具都会输出糟糕的结果，工具并不等同于技能。

这句话戳破了 AI 编程工具长期以来营造的某种幻觉。我们曾经以为，只要有足够强大的 AI 助手，哪怕是没有任何基础的 Vobe Coder 也能单枪匹马打造出企业级应用。但现实是，Claude Code 需要一个极其专注且技能过硬的「驾驶员」，否则它很容易在庞大的代码库中迷失方向。Codex 虽然更加独立，但它同样需要开发者提供精准的系统上下文才能发挥最大效用。

那么，在工具能力高度同质化的今天，这两家公司的护城河究竟转移到了哪里？

答案藏在那些枯燥的财务报表和定价策略里。在相同的任务下，Claude Code 消耗的 token 数量往往是 Codex 的 3 到 4 倍。使用成本更高。对于企业团队来说，使用 Claude Code 每个月需要为每位开发者支付 100 到 200 美元的费用。而 Codex 则将其能力打包进了价格更为亲民的订阅计划中，并且通过庞大的 GitHub 社区积攒了大量基础用户。

图源：MorphLLM

Anthropic 的野心在于将 Claude Code 深度嵌入到那些不缺钱的科技巨头的工作流中。比如 Stripe 就让 1370 名工程师使用 Claude Code，在 4 天内完成了一项原本需要 10 个人工作数周的跨语言代码迁移。Ramp 公司更是依靠它将事件响应时间缩短了 80%。OpenAI 则依靠其无孔不入的生态渗透率，让 Codex 成为了许多普通开发者的默认选择。

这不再是一场单纯的技术竞赛，而是一场关于生态绑定、定价策略以及用户习惯重塑的消耗战。

开发者的十字路口

回望这一年来的技术演进，GPT-5.4-Cyber 的发布只是这场漫长战役中的一个微小注脚。Codex 和 Claude Code 正在走向「同一张面孔」，标志着 AI 编程工具从早期充满变数和猎奇色彩的测试阶段，正式迈入了成熟且乏味的工业化生产阶段。

现在，Claude Code 每天会自动生成 13.5 万次 GitHub 提交，这个数字已经占到了全网公开提交量的 4%。我们可以预见，在不久的将来，大部分的样板代码、基础测试用例以及常规的代码重构，都会由这些长得越来越像的 AI 智能体在后台默默完成。

图源：MorphLLM & SemiAnalysis / GitHub Search API

面对两个在能力上无限趋近、在体验上相互模仿的超级工具，我们作为人类开发者的核心价值还剩下什么？或许，工具红利期即将彻底结束。当每个人手中都握着同样锋利的武器时，真正决定胜负的，将不再是谁拥有更好的代码补全速度，而是谁能更好地定义问题、谁拥有更宏大的系统架构视野，以及谁能在这个被 AI 填满的代码世界里，找到那份属于人类独有的不可替代性。

话说回来，你选哪个？

作者：机器之心

来源：机器之心

Codex不打算让Claude Code好过

青瓜传媒 — Mon, 16 Mar 2026 08:21:37 +0000

2月6日，OpenAI总裁Greg Brockman在X上公开发了一条面向全公司工程团队的帖子，设了一个deadline：到3月31日，任何技术任务，工程师的第一工具应该是agent，而不是编辑器或终端。

这是OpenAI对自己下的动员令。

如果只看这句话，你可能会觉得又是一条硅谷式的愿景声明。但接下来六周发生的事情表明，Brockman不是在喊口号。OpenAI的Coding Agent平台Codex，正在经历一轮罕见的产品冲刺，密度之高，节奏之快，甚至让一些长期关注AI编码工具的开发者开始重新审视自己的工具链。

与此同时，Codex在程序员群体中的热度和口碑也在肉眼可见地上升。

一切动作都指向“狙击”Anthropic 如日中天的Claude Code。

六周的疯狂迭代

拉一下时间线就能感受到这个节奏。

2月2日，Codex桌面App发布（macOS），OpenAI同时宣布向ChatGPT免费和Go用户开放Codex，所有付费用户的速率限制翻倍。

2月5日，GPT-5.3-Codex发布，OpenAI称它为”第一个帮助创造了自身的模型”。同一天，Anthropic发布Claude Opus 4.6。

2月12日，Codex-Spark发布，与AI推理硬件公司Cerebras合作，推理速度超过每秒1000 tokens。OpenAI的说法是，“当模型能力越来越强，交互速度就成了明确的瓶颈。”

2月14日，OpenClaw创始人Peter Steinberger宣布加入OpenAI。据Pragmatic Engineer报道，Steinberger用Codex编写了OpenClaw的全部代码，偏好长时间运行的agentic loop。Sam Altman在X上称他为“天才”，说他将“推动下一代personal agents”。

3月4日，Codex桌面App登陆Windows。

3月5日，GPT-5.4发布，是OpenAI第一个同时具备reasoning、coding和原生computer use能力的通用模型，在Codex和API中支持100万token上下文。

3月6日，Codex Security进入research preview。这是OpenAI推出的应用安全代理，前身为内测阶段的Aardvark，能够分析代码仓库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。过去30天的beta测试中，它扫描了超过120万次commits，发现792个critical级别漏洞和超过10000个高危问题，覆盖OpenSSH、GnuTLS、Chromium等重量级开源项目。误报率降低超过50%，噪音降低84%。

使用数据也在同步攀升。Sam Altman在X上确认，Codex的周活用户自年初以来增长超过三倍；Codex团队负责人Thibault Sottiaux（Tibo）告诉Pragmatic Engineer的Gergely Orosz，1月以来它的使用量增长了5倍，周活开发者超过100万。Tibo还在播客中提到，Super Bowl周日播出的Codex广告让系统几乎立即承受了巨大负载。

六周，七次重大产品动作，这成了OpenAI在产品上最激进的冲刺之一。

要理解这个节奏，一方面要看供给侧的变化。GPT-5系列模型的agent能力在过去几个月出现了质的飞跃，从上下文窗口、工具调用到长时间自主执行，模型本身的能力到了一个可以支撑Coding Agent这个产品形态的临界点。

另一方面，需求侧的信号同样强烈。据SemiAnalysis报道，Anthropic的Claude Code已经做出25亿美元的年化收入，占其企业收入的一半以上。Claude Code用真金白银证明了Coding Agent可以成为AI公司的核心收入引擎。对于估值据报已达数千亿美元的OpenAI来说，放弃这个赛道不是一个现实的选项。

根据SemiAnalysis的预测AnthropicARR增速一度超过OpenAI

时间点上的贴身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天发布。Codex Security和Claude Code Security几乎同期推出。这种节奏本身就是信号，两家公司正在把Coding Agent平台视为正面战场。

开发者开始从Claude Code的单一模式变成混合模式

在很长一段时间，Anthropic旗下的Claude Code看起来似乎已经没有了对手，用户对它的依赖变得越来越重。而OpenAI显然不想让Anthropic 这么舒服。在Codex的一通激进冲刺后，开发者社区的反应也开始发生一些变化。

过去一个月，Reddit和Hacker News上关于Codex和Claude Code的讨论，出现频率最高的词不是更好或替代，而是stacking。也就是说，越来越多的开发者不是在两者之间选择，而是同时使用。

Calvin French-Owen是一个典型案例。他是Segment联合创始人，曾在OpenAI参与Codex web产品的发布，同时也是Claude Code的深度用户。他在今年2月写的一篇博客里说，自己选择工具的核心标准是“我有多少时间，以及我想让它多自主地跑”。

他的日常工作流是用Claude Code做规划、编排终端和管理git操作，然后切到Codex做实际编码。他说Opus在跨上下文窗口的工作中效率更高，会同时启动多个子代理并行探索代码库；而Codex在长时间自主编码任务上更稳定。

Reddit上也出现了更具体的分工模式。有开发者详细描述了一个五段式workflow，先让Claude Code出计划，再让Codex review计划，然后由Claude实施，最后交给Codex做code review和QA迭代。还有人直接把Claude Code和Codex串成了一个CLI bridge，因为手动在两者之间复制粘贴太累了。

一篇社区分析总结了500多条Reddit评论后的结论，Claude Code在一组小样本盲测中胜率达到67%，质量更高；但Codex 20美元的套餐能编码一整天不断，而Claude Code同价位十几个prompt就用完了。“Claude Code质量更高但用不完，Codex稍弱但全天能用”，这是2026年3月开发者社区最真实的共识。

在Cursor官方的benchmark中，GPT系列整体领先其他模型。

开发者社区还流传着一个比喻来描述两者的气质差异，Claude像美国人，适合做充满创造力的探索和头脑风暴，Codex像德国人，代表极致的效率和专注执行。“它就像一条咬住骨头不放的狗，非常固执，会一直尝试直到解决问题。”

当然也有反面声音。Hacker News上有开发者说Codex对自己来说“每一项都比Claude Code差”，尤其是code review会制造看似合理但实际不存在的问题，他最后只把Codex用来复核Claude的产出。

但大方向已经很明确了，社区讨论正在从哪个更好就用哪个，变成两个都用，各占一个工位。

比的不再是benchmark，是谁是更实用的产品

只看模型benchmark，你不太容易理解Codex为什么起势。在SWE-Bench这类编码评测上，Claude Opus 4.6仍然领先。真正让Codex拉开差异的地方在别处，OpenAI正在围绕它构建一整套工程系统。

Orosz今年2月发表了一篇对Codex团队的深度报道。其中最引人注目的事实是，Codex超过90%的代码是由Codex自己编写的。Anthropic方面也有类似的说法，Claude Code的创建者Boris Cherny告诉Orosz，Claude Code的数据大致相当。

当然，这里的90%需要打个折扣理解，在一个成熟项目中，样板代码、测试用例、常规重构占了大量行数，核心架构决策仍然由人来做。但两家AI实验室都在用自己的coding 工具来编写自己的coding 工具，这种自举本身就说明了这些工具已经深度嵌入了日常工程流程。

Codex 的基本工作原理

Codex团队在工程组织层面走得更远。Orosz的报道描述了一种新的工作方式，Codex团队的典型工程师同时运行4到8个并行agent，分别处理feature开发、code review、安全审计、代码库理解、bug修复等任务。工程师的角色正在从写代码的人变成管理agent的人。

技术选型上，Codex CLI选择了Rust（Claude Code使用的是TypeScript）。团队负责人Tibo给出的理由不仅是性能和正确性，还有工程文化，选择Rust是为了给团队设定一个高工程标准，同时减少对npm依赖生态的依赖。他们甚至招募了Rust终端UI库Ratatui的维护者全职加入团队。

更值得关注的是分层代码审查机制。Codex团队训练了一个定制的code review模型，据Tibo说约9/10的评论能指出有效问题。审查分两层，非关键代码在AI review后可以直接merge，核心agent代码和开源组件仍然要求强制人工审查。这套机制的意义在于，审查本身开始分层了。

还有两个细节能说明Codex正在从工具走向系统。Codex可以运行自己的完整测试套件来测试自身；团队还设置了夜间巡检，让Codex自动扫描代码库并生成待审修复建议，工程师每天早上进公司时就有一批修复等着review。

一家名为Wonderful的AI开发公司的首席架构师在今年3月写了一篇文章，描述了他们四个月前禁止手动coding后的经验。他对两个工具的定位是，Codex是坐在房间后面戴耳机的工程师，默默读完你整个代码库15分钟才写第一行代码，Claude则更有产品感，更擅长判断什么感觉对。他们把Codex用于低延迟系统工作、实时语音管线、性能敏感代码，Claude则用于UI和前端。

从coding工具到Agent平台

拉远来看，Codex六周冲刺的方向指向一个更大的野心。

Peter Steinberger的加入是一个人事信号。他日常同时并行5到10个agent，加入OpenAI后的方向是下一代personal agents，不是coding工具。OpenAI正在用Codex作为agent战略的入口。

Codex Security则是另一个方向的延伸。当Codex从帮你写代码走向帮你审计安全，它的定位就已经变了。

GPT-5.4进一步加速了这个转变。作为OpenAI第一个具备原生computer use能力的通用模型，它在Codex中不仅能写代码，还能操作电脑、跨应用执行工作流。配合正在成型的插件/skills生态系统和企业级权限管理，Codex的轮廓越来越像一个AI原生的开发平台。

Codex团队在Every的播客中透露了他们眼中的下一个瓶颈，就是代码审查。

模型生成代码的速度已经远超人类review的速度，验证产出的正确性成了最紧迫的问题。他们已经在尝试让模型通过重现用户操作路径来“证明”修复有效，而不是让人类逐行读代码。

这些野心和Claude Code已经越来越清楚的发展方向有很多重合，在从Claude Code那里迅速抢走了一些用户和使用场景之后，Codex的势头正在起来。回到Greg Brockman 2月6日的那条帖子。他设的deadline是3月31日，目前距离deadline还有两周多，而从过去六周的节奏来看，Codex的冲刺还远没有结束。

OpenAI把曾经在模型上呈现出的狠劲儿和卷王的气质，都放到了Codex上，接下来它和Claude code之间短兵相接的故事，会更精彩了。

作者：周一笑
来源：硅星人Pro

GPT-5.3上线Codex，OpenAI回应Claude新模型

青瓜传媒 — Sat, 07 Feb 2026 01:17:50 +0000

火星撞地球，新模型大战！

Claude Opus 4.6发布仅仅15分钟，OpenAI也甩出了自己最新最强编程模型—GPT-5.3-Codex。

最直观的感受是，这个新模型终于有点美学品味了。

官方展示了两个Demo：一个赛车游戏、一个潜水游戏。还蛮有风格的。

据说，GPT-5.3-Codex在几乎没有人工干预的情况下，持续迭代这些游戏，累计消耗了数百万token。

在网页开发上，除了UI更好看，对「意图」的理解也更强了。

即便Prompt给得不清楚，它也能自动补全逻辑，生成一个功能齐全的网站。

就这些Demo来看，设计感确实比之前强了一截。

Computer use能力同样拉满，现在已经能用来帮金融从业者直接做PPT。

其他职场工作也能覆盖，尤其是在专业知识密集型任务上，写文档、做电子表格都没什么问题。

硬实力方面，官方给出的亮点如下：

更聪明：SWE-Bench Pro 57%，TerminalBench 2.0 76%，OSWorld 64%。

更可控：支持任务进行中的实时引导，可随时调整方向并获取更新。

更快速：完成相同任务时，所需token不到5.2-Codex的一半，单token速度提升超过25%。

更Agent：不只是更会写代码，计算机操作同样很强。

直接看这张对比表会更直观，几乎每一个维度，都比上一代有明显提升。

网友直呼过于刺激，昨天OpenAI刚被Anthropic拿广告狙了一枪，今天就对轰了回来。

一天之内，两个重量级编程模型。

评论区也迅速分成了Anthropic派和OpenAI派。

下面来看看，这场奥特曼主动挑起的AI coding大战，OpenAI到底表现如何？

GPT 5.3 Codex

大家最关心的，当然还是编程能力。

OpenAI表示，GPT-5.3-Codex在SWE-Bench Pro上实现了SOTA。

这是一个专为真实世界软件工程设计的测试，覆盖四种编程语言，整体难度更高、任务更丰富，也更贴近真实生产场景。

同时，GPT-5.3-Codex在Terminal-Bench 2.0上的表现也有明显提升。

更关键的是效率。在拿下这些成绩的同时，GPT-5.3-Codex使用的token数量少于任何以往模型。

除了编程能力，新一代Codex的另一个重点是Computer use。

OSWorld是一项面向智能体的计算机使用基准测试，要求模型在可视化的桌面计算机环境中完成各类生产力任务。

结果显示，GPT-5.3-Codex在计算机使用能力上，明显强于此前的GPT模型。

综上，GPT-5.3-Codex不是一次单点模型能力突破，更像是基于智能体的全方位发展，编码、前端开发、计算机操作全都有提升。

更有意思的是，这次GPT-5.3-Codex直接参与了自己的训练过程。

OpenAI表示，这是他们首个参与「自我加速」的模型。Codex团队在研发过程中使用其早期版本，来调试自身训练流程、管理部署，并评估测试结果。

官方也给出了一些具体例子。

在训练阶段，研究团队使用Codex监控和调试训练任务，帮助在整个训练过程中追踪模型行为变化，对交互进行深入分析，并提出改进方案。

在数据分析方面，一位数据科学家与GPT-5.3-Codex协作，构建了新的数据管道，并以远超传统仪表盘工具的方式对结果进行了可视化。

随后，研究人员与Codex一起分析这些结果，模型在不到三分钟内，就从数千个数据点中提炼出了关键洞见。

工程团队则借助Codex优化和适配GPT-5.3-Codex的测试与运行框架。

当开始出现影响用户体验的异常边缘案例时，团队成员通过Codex定位到了上下文渲染相关的缺陷，并进一步追溯到了缓存命中率偏低的原因。

Two More Things

与Anthropic的巅峰对决的确相当精彩，但OpenAI其实还有两个值得关注的大动作。

1、Frontier：一个帮助企业打造「AI同事」的平台

这是OpenAI一项相当重磅的ToB业务，目标很明确：让Agent真正进入公司工作流。

具体实现方式，包括共享上下文、上手式的入职引导、带反馈的实践学习，以及清晰的权限与边界。

据悉，HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企业，已经早早采用了Frontier。

2、AI4S：OpenAI和Ginkgo联手，用GPT-5把蛋白质合成成本打下来了40%

这是一家做合成生物学的实验室型公司，他们将GPT-5接入一座自主实验室，让模型可以提出实验方案、规模化执行实验、从结果中学习，并决定下一步该尝试什么，完整跑通了一个闭环。

2026年，或许是AI4S加速演进的一年。

不过，在OpenAI忙着和Anthropic对狙，网友们被一系列新动态弄的眼花缭乱的同时，评论区也有另一种声音。

把4o还给我！！

直到现在，奥特曼依然没有回应4o被彻底下架这件事。

或许，真的是和Anthropic打得太忙了。

作者：关注前沿科技

来源：量子位