Claude Fable 5 – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Fri, 12 Jun 2026 07:37:36 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Claude Fable 5 – 青瓜传媒 //m.clubpenjuin.com 32 32 Claude Fable 5 神级案例,可能是纯手搓 //m.clubpenjuin.com/382397.html Mon, 15 Jun 2026 01:10:45 +0000 //m.clubpenjuin.com/?p=382397

 

Claude Fable 5 发布之后,奥特曼又要被吓到眩晕瘫坐,犹如看到原子弹爆炸了。

短短 24 小时里,社交平台几乎被各种案例淹没。视频一个接一个冒出来,我们还没看完上一个,时间线又跳出一个由 Fable 5 制作的新案例,网友们玩得不亦乐乎。

甚至就在刚刚,《华尔街日报》报道称,OpenAI 正在考虑大幅下调 token 价格,试图通过打起价格战从 Anthropic 手里争夺用户。

只是,热度一上来,各种串子发布的假案例也跟着混了进来。有人把旧视频包装成 Fable 5 的新案例,蹭热点打广告;也有人故意发纯手搓视频,讽刺网友对 AGI 的盲目追捧。

与此同时,用户很快发现,Fable 5 的安全分类器实在是太敏感了,话题一旦涉及生物、化学、网络安全,模型就可能直接回退到 Opus 4.8。有网友称,自己的资料里带有生物医学背景后,连一句 Hi 都可能触发回退。

Claude Fable 5 一夜爆火,但网友已经开始分不清案例真假 

Fable 5 第一批出圈案例,大多和 3D、物理、游戏、浏览器交互有关。

有 X 用户只给 Claude 5 Fable high 一个目标:「制作一个我的世界克隆版」。大约 20 分钟后,它生成了一个包含多个生物群落、昼夜变化、不同矿石和洞穴系统的版本。它还远谈不上真正替代游戏开发团队,但已经比过去那种「按钮加贴图」的 AI 小游戏复杂得多。

自打 Gemini 3.0 发布之后,用 AI 打造克隆 Windows 系统已经不算稀奇,但 Fable 5 完成度之高,还是令人震撼不已:登录界面、通知、Edge、纸牌游戏,Copilot 一应俱全,充分展现了 Vibe Coding 指哪打哪的魅力。

机械和工程案例的表现也没拉胯,让它用 Three.js 实现完整瑞士杠杆擒纵机构。成品包含真实齿轮比、运转中的擒纵机构、呼吸式游丝和显示实际时间的指针。呐呐呐,这看了谁不迷糊。

类似的还有街区模拟器。Bilawal Sidhu 让 Fable 5 做了一个包含多 Agent 交通、实时检测框、轨迹和昼夜循环的城市街区。它不是成熟交通仿真软件,但它把「城市、多主体、轨迹、识别框、昼夜变化」这些元素组织成了一个能看的原型。

要说更夸张的案例, 还得是让 Fable 5 设计人形机器人。

提示词非常简单,让它设计一个紧凑、轻量、类似现代高机动研究机器人的人形平台,带有 25 到 30 个自由度、外露关节、铝合金或复合结构,以及带传感器的头部。

就这,仅仅用了两个小时、消耗约 140 万 token 后,Fable 5 就甩出了一版完整草稿。换句话说,很多过去要开几次会才能讲清楚的想法,现在可能先由模型做成一个能看的版本。

是的,Fable 5 自己不一定能生成最好的视觉素材,但它很擅长把素材、规则和交互组织成产品。而这种路径,反而比一句话全交给 AI 更接近生产实际。

3D 鞋子产品网站也是类似路径。创作者用 Magnific MCP 在 Claude Code 里生成产品图,再转成 3D 模型,下载后交给 Fable 5,用来开发一个交互产品页面。最后效果接近一个能直接展示的 3D 电商落地页。

还有人用 GPT Image 2 负责设计,用 Blender MCP 负责模型和照明,再让 Fable 5 完成乒乓球游戏逻辑,总开发时间约 6 小时。

把不同模型生成的案例放在一起,就更能看出模型在处理 3D 流体、体积动画和复杂物理效果的区别了,毫不夸张地说,Fable 5 的画面复杂度、运动感和空间表达明显遥遥领先。

Fable 5 强是真的强,但发布之后,也没少遭到网友的吐槽,主要舆论炮火都集中在过于敏感的安全分类器。按照用户反馈,网络安全、医学、生物、化学等领域很容易触发回退到 Opus 4.8。

有生物研究背景的用户称,因为 Claude 的记忆和偏好里出现过前列腺癌、细胞系、免疫荧光、图像分析、R 编码等内容,Fable 5 上线后,无论问什么都被转到 Opus 4.8,甚至一句 Hi 也不例外。

被误伤的用户很难不觉得荒谬:模型记住了你的专业背景信息,然后以此为理由拒绝为你工作。

此外,伴随着 Fable 5 刷屏,各路牛鬼蛇神也跟着出动,社交平台上很快出现了大量反串假视频。

有人拿着之前网上流传的 GTA-6 网友视频制作画面,硬说是 Fable 5 生成的;

还有人吃起了 AI 的流量馒头,借此接单做广告。

它们未必都是真骗子,里头不乏纯粹的乐子人,就像用这种离谱的假视频,讽刺大众对 AGI(通用人工智能)毫无理智的盲目追捧。

真正榨干 Fable 5,需要给它目标、工具和记忆 

Fable 5 的强项不只是一句话出结果。它真正适合的用法,是给模型设计一个能自我修正的工作环境。

AI 知名研究员 Lance Martin 提到,Mythos 级模型正在改变 Anthropic 内部很多人的工作方式。核心方法有两个:自我修正循环,以及跨会话记忆。

所谓自我修正循环,可以理解为给模型一个明确目标和评分标准,让它反复尝试、读取反馈、修改方案,直到达到要求。Claude Code 里的 /goal,以及 Claude Managed Agent 里的 Outcomes,都是这类机制的代表。

🔗https://x.com/0xLogicrw/status/2064714178947170503

这里的重点并非让模型自说自话地检查自己。

Lance Martin 特别提到,模型对自身输出做自评时会有偏差,更好的方式是使用 verifier 子 Agent,在独立上下文中评分。一个角色负责执行,另一个角色负责验收。两者隔离之后,判断会更可靠。

他用 Parameter Golf 做了一个测试。这个开源 ML 工程挑战要求在 8 张 H100 上,10 分钟内训练出最好的模型,同时最终产物要放进 16MB。任务包括编辑训练代码、启动训练、读取日志、分析分数,再决定下一次实验怎么做。

在这个测试里,Fable 5 相比 Opus 4.7 带来的训练管线提升更大。更明显的差异在于,Fable 5 更愿意尝试结构性调整,比如架构变化,而 Opus 4.7 更容易围绕常数和参数做小范围修改。

第二个方向是记忆。在连续学习任务中,每个问题都是一次单独会话,模型需要读写共享记忆。好的记忆使用过程大概包括五步:记录失败、调查原因、验证判断、提炼规则、下次先查规则。

Lance Martin 的观察是,Sonnet 4.6 往往停在记录失败和猜测,Opus 4.7 能建立一些带不确定性的参考,但验证覆盖不高。Fable 5 表现更完整,强运行里可以把更多经验验证后提炼成规则,用于后续任务。

这对普通用户也有启发。Fable 5 不适合只拿来问一次问题。它更适合长期处理一个任务域,比如代码库、数据管线、产品原型、研究项目,并允许它保存经验、读取经验、修正经验。

简言之,如果你想要榨干 Fable 5 的性能,关键不在提示词多玄学,而在任务设计,而长任务里的过程记录,本身就是生产资料。

说到把任务交给工具去跑,OpenClaw 就是最典型的一类,可如果你最近想把 Fable 5 接进 OpenClaw,就会发现模型一调用就崩。

究其原因,6 月 10 日之后,Anthropic 把 claude-fable-5 调整为需要 adaptive-thinking 参数,也就是 thinking.type 需要使用 adaptive,并配合 output_config.effort。

旧版 OpenClaw 还不认识 fable-5,会继续按旧式 thinking.type enabled 或 disabled 发请求,于是每次调用 Fable 5 就会报错。

YC 总裁 Garry Tan 也分享了最新的解决方案:

🔗  https://x.com/garrytan/status/2064843483396137346

截至目前,Fable 5 的冲击还没有真正展开,价格依旧是一道现实门槛,但等工具链、Agent 框架和开发环境逐渐适配,它也将有望先进入少数高价值环节:

原型设计、复杂代码迁移、工程验证、自动化测试、研究辅助,或者那些过去需要一整个小团队连续几天才能推进的任务。

而等过段时间 Mythos 5 也「解封」,OpenAI 即将迎来最有压力的一集。

作者:发现明日产品的

]]>
Claude Fable 5省钱秘诀来了:调成Low档比Opus更便宜 //m.clubpenjuin.com/382354.html Mon, 15 Jun 2026 00:45:59 +0000 //m.clubpenjuin.com/?p=382354

 

聪明人总能花最少的钱办最好的事,AI也一样。

就在大伙还在为Claude Fable 5两倍于Opus 4.8的token单价发愁时,反转来了——

不少开发者发现,把Fable 5的努力程度(effort)调到最低的low档之后,模型不仅没变弱,反而变得格外能打,token消耗也着实少了。

而且哪怕是最低档位,它在SWE-bench Pro上的得分依然压过Opus 4.8开到最强xhigh档的成绩——75.0对68.6。

(注:系统卡这组数据出自Mythos 5配置。Fable 5是加了安全分类器的公开版本,两者权重相同,编码任务基本不触发分类器)

不过,开low档省钱用好模型还只是故事的一半。

因为过去一天里,不少人发现,Fable 5的省钱未必只是因为开了low档。

在一些实际任务中,它甚至能做到效果更好、速度更快,最后账单还更便宜。

比如在GameBench的测试里,面对同一个蜘蛛吃虫子的小游戏任务,Fable 5不仅生成速度更快,效果也更好,而最终成本反而低于Opus 4.8。

(左边为Fable 5,右边为Opus 4.8)

这下。事情就有意思了。

原本大家还在纠结Fable 5贵了一倍,现在却发现,它不仅更强,很多时候甚至还更省。

贵是贵在单价上,省却省在最后的账单上,Fable5 low启动!

贵的模型怎么更省钱

那么,为啥明明更贵的模型反而更省钱呢?

毕竟,Fable定价每百万输入token 10美元、输出50美元,刚好是上一代旗舰Opus 4.8(5美元/25美元)的两倍。

对此,Claude Code之父Boris Cherny在Threads上解释了这笔账:

Fable每token的价格确实是Opus的两倍,但完成同一个任务平均用的token更少,因为它更聪明、更高效,在一些复杂任务上,Fable的实际花费反而低于Opus。

评论区也有网友表达了类似观点:

目前观察到的就是这样,单任务token更少,纠错动作更少,浪费的token也就更少。

换句话说,以前那些不够聪明的Agent,总会在写错了再改、跑挂了重跑的过程中疯狂烧token。

模型越笨,犯错次数越多,你就得多付一轮token的钱。

而Fable 5砍掉的,恰恰就是这部分隐性成本。

比如,Fable 5在shortcut的电子表格任务测试中,Fable 5在所有effort档位都跑赢了Opus 4.8,不仅回合数更少,整体完成速度还快了25%~30%。

再比如物理研究那条案例。

署名为Matthew Pines(CEO)的研究者表示,Fable 5是他们测过最强的前沿物理研究模型,仅用三分之一的推理token,就在36小时内跑到了GPT-5.5需要四天才能接近的位置。

当然,Fable比Opus更省更好也不是绝对的,具体还得看任务类型。

Reddit上也有网友反馈,在某些特定任务里,Fable确实会消耗更多token,但并没有外界想象得那么夸张,很大程度上取决于上下文长度和任务规模。

如果任务本身不复杂,其他effort档位甚至其他模型,也完全够用。

其实官方公告里也悄悄提到了这一点。

Anthropic在发布文章中提到,Fable 5相比以往Claude模型拥有更高的token效率。

他们给出的证据来自Cognition的FrontierCode评测。这套评测考察的是模型能否在达到生产级代码标准的前提下完成高难度任务,而Fable 5仅在medium档位,就已经拿下了所有前沿模型中的第一名。

所以,这套定价的正确打开方式或许不是看每token多少钱,而是看每干完一个活多少钱。

按前者算,Fable 5确实贵了一倍。

但按后者算,在足够复杂的任务上,它甚至可能比Opus还便宜。

不仅省,榜单这一块也被Fable 5扫完了

如果说更低的任务成本还属于见仁见智,那么过去一天多时间里各家评测榜单给出的结果就比较直接了:

Fable 5几乎把能拿的第一都拿了一遍。

先看综合能力。

在Artificial Analysis最新的智能指数中,Fable 5以64.9分排名第一,领先GPT-5.5约5分,榜单前两名全部被Anthropic包揽。

在人类最后的测试(Humanity’s Last Exam)上,Fable 5拿到53%的成绩,比第二名高出7个百分点以上。

再看Agent能力。

在arena.ai的Agent榜单上,Fable 5登顶榜首。

文本处理、网页开发等场景依旧保持领先。

在FrontierCode上也是第一。

SimpleBench上的表现则已经逼近人类水平。

除此之外,编程能力可能是争议最小的一项。

抛开Anthropic自己的数据之外,第三方评测机构TrueFoundry公布的结果显示,在SWE-Bench Pro上,Fable 5以80.3%的成绩拿到所有受测模型中的最高分,GPT-5.5在这一项上落后超过21个百分点。

Every的评测文章则给出了一个更直观的数字。

在他们最难的Senior Engineer基准测试中,Fable 5获得91分(满分100分),已经接近参与测试的人类资深工程师水平区间;作为对比,Opus 4.8得63分,GPT-5.5得62分。

One more thing

不过,在把Fable 5默认调成low档之前,还有两件事值得注意。

第一,Fable 5带着安全分类器上线。

涉及网络安全、生物化学、模型蒸馏等敏感请求时,系统会自动切换到Opus 4.8回答,并按照Opus价格计费。Anthropic表示,这类情况触发率不到5%的会话。

这也意味着,部分安全相关Benchmark上的成绩,公开版本未必能够完全复现。

第二,当前的免费使用窗口是限时的。

6月22日之前,Pro、Max、Team以及按席位计费的企业版用户都可以直接使用Fable 5;从6月23日起,将开始消耗用量积分。Anthropic表示,等算力容量跟上之后,会重新恢复为订阅权益。

另外,使用Fable 5需要开启30天数据保留,以满足安全监控要求。

作者:henry

来源:量子位

]]>
Claude Fable 5 上线第一天:贵一倍,但有件事比跑分更值得看 //m.clubpenjuin.com/382325.html Thu, 11 Jun 2026 03:52:04 +0000 //m.clubpenjuin.com/?p=382325

 

6月9日凌晨,Anthropic 把 Claude Fable 5 推上了台面,我其实没什么期待——这是 12 天里第二次模型升级,上一次还是 5 月 28 日的 Claude Opus 4.8。说实话,发布密度太高,我心态已经从”快试试”变成”先看跑分再说”。

但翻完发布会、跑了一晚上手头几个任务的 case,体感不是”哇又一个屠榜的”,是”咦这次玩法不太一样”。

这次值得写的,不是它跑了多少分,而是 Anthropic 把”神话级”(Mythos-class)模型第一次拎出仓库摆上柜台这件事本身。

一、跑分跳了 11 分,但跑分不是它真正想让你看到的

先把数字摆出来。

Claude Fable 5 在 SWE-Bench Pro 拿到 80.3 分,Claude Opus 4.8 是 69.2,GPT-5.5 是 58.6,Gemini 3.1 Pro 是 54.2。换句话说,它比 Anthropic 自家上一代领先 11 分,比另外两家领先 20 分以上。同一个模型在 SWE-bench Verified 上是 95.0,在 Cognition 那个叫 FrontierCode 的前沿编程评估里排第一,在 Hebbia 的金融高级推理基准里领先。

这种跑分密度,看多了反而麻木。直到我看到 Stripe 那个 case。

Stripe 在早期测试里把 Fable 5 接进了他们一个 5000 万行的 Ruby 代码库做版本迁移。原本他们排了一个团队、两个月的工期。Fable 5 用了一天。

我盯着这个数字看了很久。一个团队两个月的活,约等于 2 个人 × 22 天 × 8 小时 ≈ 352 个工时,被压成 1 天。这不是”工程师效率提升 30%”那种叙事了,这是”工程师的角色从写代码变成审 patch”的拐点信号。

GitHub 那边 CPO Mario Rodriguez 给的话是”展现了前所未有的自主性和可靠性”。这种官方话术得打三折听,但 Cursor 的 CTO Michael Truell 说的那句更值得划重点:

“它打开了一类我们之前根本碰不到的、长程问题。”

长程(long-horizon)这个词是 Anthropic 这一年最在意的指标——一个 Agent 能不能连续跑几小时甚至几天,不丢上下文、不在中间发疯。Fable 5 的 1M token 上下文加持久文件记忆,在 Slay the Spire 这种需要反复决策的任务上,跑出了 Opus 4.8 的 3 倍表现。

这意味着什么呢?意味着你以前不敢交给 AI 的”打通账期对账 + 写月报 + 发邮件 + 在 Notion 里更新看板”这种连环任务,它现在能完整跑下来。

二、Mythos 级别第一次走出仓库

这才是这次发布真正的事件。

Mythos 是 Anthropic 内部的最高能力等级。在此之前,只有一个 Mythos Preview 版本通过 Project Glasswing 项目,定向给美国政府和少数网络防御机构试用。整个 2026 年上半年,Anthropic 反复在公开场合说”我们手上的模型已经强到不能随便放出去”,公司 5 月底还专门发过一篇”AI 正在变得太危险”的声明。

12 天后,他们就把这一级别的模型对外开放了。

Fable 5 是带安全分类器(classifier)的公开版本;同时发布的 Claude Mythos 5 是同一个底模,但在某些领域去掉了分类器,继续走 Glasswing 通道,计划在 15 个国家约 150 个组织里铺开,重点是网络防御者和后续会加入的生物医学研究员。

这是一次很拧巴的发布。一边官方话术里满是”我们已经接近上限了,要谨慎”,一边商业节奏快得只能用 Token 数说话。

但商业逻辑很简单:OpenAI 今年的市场份额从 90% 跌到 65%,Anthropic 必须把最强的牌打出来。

三、那个”分类器降级”机制,是我这次看 Fable 5 最有意思的设计

发布稿里有个细节很容易被划过去:当用户在 Fable 5 上问到生化、网络攻击、模型蒸馏这三类高风险问题时,Fable 5 本身不是拒答,而是把这次回答悄悄交给 Claude Opus 4.8

我读到这条的时候,第一反应是想起便利店收银台后面挂的那条红绳——年轻店员看到酒水单或敏感商品,会把单子推给后面那个戴老花镜的店长。Fable 5 在做一样的事,遇到自己评级”得拿稳一点”的问题,就把笔交给隔壁那个稳重点的同事。

这个机制的设计角度,比我看到过的任何模型卡都更接近”产品”——它没用”拒绝回答”这种硬墙,而是用”模型分流”这种软处理。从用户体验上看,你大概率察觉不到自己被降级了,回答还在,只是这次回答你的不是 Fable 5。

我必须诚实地承认,我这一晚没复现出 fallback 的具体边界。我跑了几个我能想到的偏侧 prompt,模型回答顺得很,看不出明显切换的痕迹。Anthropic 没公开分类器的阈值,外部红队报告 1000 小时没找到通用绕过,我也只能信他们这个数字。

至于蒸馏分类器,那条是专门防”被授权外的训练方”从 Fable 5 拷能力的,平时用不上,但它的存在本身就是一个声明:

Anthropic 这次不打算把 Fable 5 的能力随便放出去给别人复刻。

 

四、$10 / $50 这价钱,谁该现在切,谁该再等等

钱的事儿放最后说。

Fable 5 的官方定价是输入 $10 / 百万 token,输出 $50 / 百万 token,正好是 Opus 4.8 的两倍。但开了 prompt caching 之后,缓存命中的部分有 90% 折扣,这一点不能不提——做长 RAG 流程的团队,真实成本不一定翻倍。

订阅侧的安排比较有意思:6 月 9 日到 6 月 22 日,Pro / Max / Team / Enterprise 这四档订阅用户免费用 Fable 5;6 月 23 日起改成消耗 credit。这是 Anthropic 一贯的打法——给两周时间让你的真实工作流跑出依赖,等你回不去再开始扣钱。

那到底该不该现在切?我说个分类:

  • 你的活儿是长程任务(多步 Agent、大代码库重构、跨文档审阅)——立刻切,这 12 天里把账算清楚
  • 你的活儿是单次 chat、短 prompt、客服问答——别切,Opus 4.8 完全够用,Haiku 4.5 还更便宜
  • 你的活儿涉及生化、网安、蒸馏相关研究——切了你也只能拿到 Opus 4.8 的回答,省点钱
  • 你是被老板要求”评估一下新模型”——免费的两周窗口正好给你写评估报告,过了 6 月 22 日就得报预算

价格策略上还有一件不太被提的事:Mythos Preview 版本之前的价格比 Fable 5 现在贵 50% 以上。也就是说,Anthropic 这次是把更强的能力以更便宜的价格放出来。这不是降价,这是 Anthropic 在告诉 OpenAI 和 Google:我们已经摸到了一个我们觉得舒服的成本曲线,你们要打就来。

写在最后

回到最开始那个问题。12 天里两次发模型,这次的关键不是”跑分跳了 11 分”,是 Anthropic 第一次把 Mythos 级别的能力放进 API,让你用 $10 就能调到。

能不能赚回那 $10,不在跑分里,在你手上那个具体的活儿里。你的代码库多大,你的 Agent 长链谁来扛,你愿不愿意在 6 月 22 日之前免费跑几个真实任务做对照——这些我不知道

作者:阿铭Ziven

]]>
Claude Fable 5首日实测,杀疯了… //m.clubpenjuin.com/382313.html Thu, 11 Jun 2026 03:19:11 +0000 //m.clubpenjuin.com/?p=382313

 

Anthropic深夜突袭放出Claude Fable 5,直接迈入Mythos神话级新段位。

那……到底有多强悍呢?还得实测来看。

这不,Fable 5开放首日,全网已经开始疯狂测测测了!!

硅谷顶级风投a16z合伙人Justine Moore拿“洗车灵魂问题”先来拷问了一轮:

洗车店离家仅100英尺,到底该走路还是开车去?

Fable 5直接开启嘲讽模式:走路去,因为你的车一定会喜欢惊喜(doge)。

好好好,虽然给出了车是交付物所以要开车去的正确答案,但你还是忍不住先犯欠是吧……

当然了,整活儿不够看,还得拉上顶流同台对决才见真章!

网友也给安排上了:Fable 5(左)vs GPT-5.5(右)

让两位在我的世界里创建一个克隆版推特,看看谁能还原出更逼真的效果。

左边整个笔记本电脑造型还挺完整,键盘、底座都给你搭出来了,界面也很清晰,像素风细节拉满不说,甚至还能看出UI的层次感和色彩搭配。

再看右边……直接反向输出,排版整个乱成一锅粥,文字是倒着的,甚至炸到了屏幕外边!

没办法,我只能说,这局Fable 5完胜!

一条提示撼动市值2400亿美元的Photoshop

不止GPT-5.5一个“受害者”,市值2400亿美元的Photoshop,也可以安息了……

用一句提示词复刻PS,结果直接完美拿捏全套设计功能!

修图、调色、做特效、创意绘画样样精通,专业效果随手就来,直接把经典《创造亚当》玩出了赛博朋克味儿。

从色彩分离、颗粒质感,到高对比的赛博色调,细节处理、效果还原度都相当到位,连matrix code这类硬核特效都能轻松实现。

除了PS Fable版,还有游戏《只有一道门》Fable版。

只经过一次推理,完整游戏框架、核心玩法、关卡逻辑、交互动画全部落地。

咱也去玩了一下,只不过第二关还没过就已经死了10次……

当然了,搭建网站这事儿,Fable同样手到擒来。

有网友直接让Fable给Fable做网站

这效果我只能说,Fable你对自己太好了,咋啥好东西都整自己身上了……

甚至,还有人用Fable构建出了3D世界,整个项目基于Three.js实现,成品无需额外配置环境,打开浏览器就能直接运行。

并且作者表示,做到这种效果只用了几行提示词和不到1小时的时间。

能力涨幅已经打破了过往AI模型的数据规律

除了能从实测效果上看到Fable 5的实力,专业玩家复盘FC Diamond、SWE-Bench Pro等权威数据后表示:官方图表根本不能反映出它起飞式的能力涨幅!

过往AI模型的能力增长都有迹可循,数据曲线平稳规律,但Fable 5完全不走寻常路,成绩一路狂飙,直接冲出了旧有的数据趋势线(黑色)。

上一代旗舰Opus 4.8发布时,在Diamond榜单上冲到了约14%的成功率,刚好踩在那条黑色趋势线上,属于正常的、顶级的行业水平。

这次Fable 5直接冲到30%+的成功率,翻了一倍还多。

各路开发者也是迫不及待上手实测代码能力。

有人直接把一整个杂乱的老旧代码库交给Fable 5做全面重构。

模型一次性自动触发67次工具调用,生成超百万行全新代码,新增24个文件,顺利完成架构拆分、模块化改造。

整理后的代码结构规整、观感极佳,但美中不足的是,这套精心重构后的代码最终无法正常运行。

当然了,也有玩家带来了惊喜满满的实测体验。

用它清理项目冗余代码,直接删掉7000行无效代码,精简完成后整套系统运行丝滑,原有功能全部完好保留。

只不过,代价有点大——

就这一次操作,直接耗掉了30%的额度。

这也太太太贵了……钱包已空(苦笑.jpg)

所以,等窗口期过了之后该咋办。

作者:闻乐

来源:量子位

]]>