GPT Image – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Tue, 28 Apr 2026 06:30:02 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico GPT Image – 青瓜传媒 //m.clubpenjuin.com 32 32 实测Claude Design与GPT Image 2.0 //m.clubpenjuin.com/381041.html Wed, 06 May 2026 01:10:36 +0000 //m.clubpenjuin.com/?p=381041

AI圈还是太卷了。不到一周时间,两家头部公司先后把新产品对准了设计行业。

4月17日,Anthropic推出Claude Design;4月21日,OpenAI上线GPT Image 2.0。两者打法不同,Claude Design对标Figma,主打降低设计门槛,GPT Image 2.0则专供图像生成能力,强调文字渲染精度和视觉还原度。

Claude Design本质上是一款AI原生设计工具,由Claude Opus 4.7驱动,根据官方的介绍,它可以通过自然语言描述,直接生成可交互原型、PPT演示文稿、单页文档等内容。生成的设计稿能够以PPT、PPTX、HTML等格式保存,也可对接Claude Code,减少从设计到开发的中间环节。

目前它处于研究预览阶段,向Claude Pro、Max、Team等订阅用户分批开放,超出现有额度后可选择开启额外用量。

相比之下,GPT Image 2.0更像是ChatGPT的视觉进化升级。它直接嵌入ChatGPT对话中,能生成多种风格的图片,并自动规划内容、生成封面、内页、插图等整套物料。在官方直播中,OpenAI称其性能“相当于一次性从GPT-3直接跳跃到了GPT-5”。

放眼国内,AI文生图模型也同样热闹。字节跳动Seedream、快手可图、阿里Qwen Image等模型也在持续迭代,在中文语境、中文渲染等本土化场景中较有优势。不过,国内目前尚未出现对标Claude Design的这类原生AI设计工具。

两款新产品的发布,对现有工具格局形成了直接冲击。市面上目前有两类主流设计工具: Figma、即时设计这类专业的设计平台,以及Canva、创客贴这类以模板为核心的轻量化设计工具。Claude Design发布当天,Figma的股价下跌7%。而GPT Image 2.0的上线,则让模板类设计工具面临潜在威胁。用户能在聊天中直接生成整套视觉物料,Canva等工具的拖拽式体验自然会打折扣。

每次新AI产品发布,都少不了“杀死比赛”“消灭某个岗位”等声音。这两款产品,真的有那么好用吗?我们分别进行了实测。

01.实测Claude Design:滑块修改、多格式导出、开发直用 

Claude Design官方披露的使用场景中覆盖较广:设计师可以快速探索多套方案;产品经理能用它绘制产品线框图和高保真原型,直接对接开发;创始人和销售可以生成符合品牌规范的路演PPT;市场人员则能快速制作落地页、社媒素材等。

它有两个值得关注的特点。一是修改方式更灵活:在版本迭代的过程中,用户能通过对话、内联评论或直接拖动滑块来调整参数,不需要反复重新发指令。二是风格一致性:系统获得权限后,可以自动调用团队的设计系统,将统一的字体、颜色和组件应用到每一个输出中,减少不同成员出稿时风格跑偏的问题。

Claude Design搭建设计系统页面

「AIX财经」选取了这三个常见场景进行实测。

场景一:生成一款健康打卡类移动端APP原型

测试结果显示,Claude Design生成的初版中,三个核心页面的配色、排版、功能模块分布基本符合指令要求,首页打卡模块、数据统计图表、个人中心设置均呈现得比较清晰。不过在首页的柱状图略有不足,不同数据列顶部会重叠在一起,还需要二次调整。

Claude Design 设计的健康打卡APP原型图

在编辑栏可以根据具体版本调整字体、字号、间距、透明度、圆角半径等参数,能满足精修的需求 。

Claude Design 设计的健康打卡APP原型图

我们尝试在不重新开发指令的情况下调整配色,拉动调节杆时画面同步刷新,响应速度比较流畅。相比传统“改一版等一版”的AI工具,这种实时交互的效率更高。

总的来看,Claude Design在APP原型生成上完成度不错,但图表等复杂元素仍有优化空间。

场景二:生成融资路演PPT

从成品完善度来看,每一页都有明确的标题层级、正文内容、视觉元素和配色方案,整体遵循了科技商务风格。

Claude Design 设计的融资PPT

但布局排版仍有问题:部分页面内容密度不均,整体没有居中;在文字呈现上,部分语句不够通顺,明显需要二次润色。成品支持直接导出为PPTX格式,也可以导入Canva进行精修。

综合来看,它作为快速搭建框架的辅助工具,能缩短出稿时间,但要直接拿去路演,还需要人工调整。

场景三:为沙发设计产品着陆页

这一轮Claude Design并没有直接动手生成,而是先反过来提问布局偏好、互动方式、文案语气等。

这种“先问再做”的逻辑,区别于大部分“接到需求立刻生成”的AI工具,对目标明确的用户来说,几轮追问可以让初版更贴近预期。

图源 / Claude Design询问页面

生成的作品内容丰富,除了优势、售后保障等常规模块,还加入了讲述品牌故事的文案。

Claude Design设计的沙发产品着陆页

这一场景里,Claude Design的需求理解能力比较突出,适合对品牌调性要求较高的商业场景。

三组测试下来,Claude Design在细节编辑、成品完整度、以及需求理解能力这三个维度上,表现尚可,但还没有到“颠覆”的程度。

需要提醒的是,据外媒报道,Claude Design的Token消耗偏高。有Pro订阅用户25分钟测试便用掉了约80%的周配额,对重度用户来说,成本压力不小。

02.实测GPT Image 2.0:联网补信息、文字渲染、新增4K输出 

我们再来看GPT Image 2.0。

在AI生图时,往往需要“抽卡式许愿”,多次尝试才能拿到一张满意的图。GPT Image 2.0的一个核心改进是出图成功率的提升。

它最直观的提升,体现在对复杂指令和细节的执行能力上:复杂构图、细小文字、UI元素都能更准确地呈现。API端已开放最高2K分辨率输出,兼容十种常用宽高比,覆盖海报、社交媒体到移动端等场景。同时,4K输出能力也在逐步开放中。在中文、日文、韩文等非拉丁文字的渲染上,相比以往模型明显更稳定,能直接生成排版合理、文字融入画面的设计。这一点对中文用户尤其有意义,过去AI生图里出现的“乱码字”问题终于有了改善。

它还引入了Thinking模式:生成内容前,模型会主动推演,并能实时联网搜索,让模型在面对需要事实准确性的任务时,能自行判断哪些内容需要核实、补充。 但要注意,模型的训练知识库的更新停留在2025年年底,对最新事件的覆盖仍依赖实时检索质量。

接下来,我们还是选取三个场景进行实测。

场景一:杂志封面

GPT Image 2.0生成的杂志封面

GPT Image 2.0能够快速完成封面制作,整体排版整齐,可以选择不同宽高比适配不同版式。这类标准化的视觉物料,是它最擅长的领域之一。

场景二:产品海报

GPT Image 2.0生成的产品海报

我们提供了一张某车企的车型图片,要求创作一张产品宣传海报。测试过程中,模型主动调用信息检索能力,准确识别车型归属哪个品牌,智驾方案由哪家企业提供,生成的海报在视觉风格与产品信息表达上,与该车型基本相符。

这里需要提醒:模型的联网检索能力虽然好用,但应用在品牌物料这类商业场景时,必须注意版权与合规问题。它能识别并使用品牌信息,不代表用户就有权使用。

场景三:短篇漫画

GPT Image 2.0生成的短篇漫画

这一场景里,我们升级难度,要求创作主体统一、情节流畅的多格漫画。第一版漫画中虽能完整呈现故事线,但出现了明显的连贯性问题,主角所骑行的车辆在不同分镜中变了好几次。

在我们指出主角角色道具不统一的问题后,模型并未直接重新生成,而是先询问要保留哪种道具,并对每页内容、分镜结构进行了完整梳理,待确认方案后才生成新版本。经过这一轮交互修正,最终输出的漫画主体一致、情节流畅。

GPT Image 2.0生成的短篇漫画

这一场景说明:模型的纠错能力可圈可点,但要在多格连续叙事中保持主体一致,仍需要人工介入引导。

综合三大场景实测结果可以看出,GPT Image 2.0在杂志封面、产品海报等单图、标准化设计场景中表现成熟,尺寸适配灵活、信息理解准确。在多图连贯叙事场景中,逻辑梳理能力突出,但保持主体一致性还有待优化。

整体来看,它能够满足轻量化、高效率的日常图文创作需求,适合作为设计辅助工具快速产出初稿,在复杂连续内容生成上仍有提升空间。

03.GPT Image 2.0/Claude Design,谁更懂需求? 

接下来,我们选取两款产品都适用的三个场景做横向实测,看看谁更懂需求。

场景一:生成一个运营数据分析仪表盘

GPT Image 2.0生成的仪表盘

GPT Image 2.0生成的仪表盘基础框架完整,覆盖了运营核心指标,但数据呈现偏笼统,缺少业务关键细节。

Claude Design 设计的仪表盘

Claude Design则信息密度更高,仪表盘涵盖了七个数据表格和四个核心数据展示,整体排版层次清晰,可视化形式也更加丰富。

这个差别其实揭示了两款产品的底层逻辑差异:ChatGPT Images 2.0生成的是“图”,本质是图像;Claude Design生成的是“原型”,背后是HTML和组件结构。前者擅长视觉呈现,后者擅长信息组织,所以在仪表盘这类信息密度要求高的场景里,Claude Design更顺手。

场景二:新书上市海报

GPT Image 2.0生成的新书海报

GPT Image 2.0生成的海报明显更为成熟。构图完整、图文排布合理,效果已接近市面上可直接使用的成品。它还主动增加了推荐人模块,并结合检索信息给出较为精准的推荐人,实用性更强。

Claude Design 设计的新书海报

Claude Design仍未直接生成海报,而是先提问了核心卖点、海报风格调性偏好,最终才给出了四个不同方向的方案。但因为没有提供实际封面,四个方案都用占位图呈现书籍主体,导致视觉焦点模糊;版面中文字与图片位置存在冲突,整体偏凌乱,更像设计过程中的概念稿,而非成品海报。

在这个场景中,GPT Image 2.0的成品结构和实用性更强,Claude Design更适合侧重设计探索。

场景三:记账APP原型图

我们给两个模型都投喂了同样的设计草图。

Claude Design 绘图页面

Claude Design可以直接在页面内手绘草图,省去上传步骤。生成的效果更贴合草图,没有过度延伸,页面包含攒钱计划、金库等功能结构,逻辑顺畅。它还能在页面中直接调整细节,无需反复发送新指令,修改效率更高。

Claude Design 设计的记账APP原型图

GPT Image 2.0则需先上传图片,它同样还原了核心元素,并做了一些内容延伸,让页面更丰富,成品成熟度更高。但它的输出止于单图,后续调整必须重新发指令,无法在同一页面迭代。

GPT Image 2.0生成的记账APP原型图

在这一场景中,两者表现差距不大。Claude Design支持页面内手绘,更加方便操作,GPT Image 2.0则在创作上更擅长生成内容更丰富的场景。

三大场景实测下来,两者没有绝对的胜负。简单概括:

要快速出可商用的视觉成品,找ChatGPT Images 2.0。它擅长一步到位,强视觉还原,自带信息补全。

要做严谨的数据面板、可迭代的产品原型,找Claude Design。它的信息密度、专业排版和可迭代性更适合产品设计工作流。

04.结语 

4月以来,AI对设计行业密集出牌。

一边是AI巨头们争相押注设计行业,另一边是Figma、Canva等老牌设计厂商,在成熟工具内持续叠加AI能力。

为何厂商都在抢夺设计场景?最直接的原因是离钱更近。

通用大模型算力成本高、商业模式模糊,但设计工具付费主体明确,连接着营销物料、产品界面、电商素材等商业场景。企业愿意为缩短出图时间、减少外包成本而买单,AI设计工具自然成了好生意。

此外,设计带有协同属性,一个设计文件能撬动产品经理、运营、客户等多方用户,平台生态容易搭起来,AI巨头们看中的不仅是单次收费,更是可标准化、高频次、能持续收费的应用生态。。

短期来看,AI巨头们会通过模型能力快速切入单点场景,凭借技术优势占领基础设计市场,满足企业即时性、标准化的设计需求;长期来看,能够吸引用户持续为AI设计工具付费,还需要打造覆盖出图、团队协同、落地交付全流程的平台,提供多样化的订阅机制,满足个人创作者和企业的需求。

作者:雷晶

来源:AIX财经

]]>
AI终于能写对字了?从GPT Image 2拆解AI生图技术路径 //m.clubpenjuin.com/380901.html Thu, 23 Apr 2026 00:45:21 +0000 //m.clubpenjuin.com/?p=380901

 

大晚上突然被GPT Image 2刷屏了,生图效果太牛逼了。

我也简单测试了几个案例:

一句话直出,如果不说,你会觉得这就是某个工厂直播间随手截的屏。

但这整张图是 GPT Image 2 生成的。每一个中文字符、每一个数字、每一个UI元素,全部是AI从零画出来的,完全没有任何文字上的错位。

还有一张更离谱。武汉大学人民医院的门诊处方笺,抬头、科室、日期、ICD编码、四条处方的手写体药名和用法用量,甚至右下角的红色公章,全是AI生成的。

还有一张痛风因果链的医学信息图,12个模块,从嘌呤来源到尿酸生成到结晶物理学到急性发作,每个模块里的中英文专业术语、化学式、箭头标注,零错误。这种复杂度的中文信息图,放在半年前,没有任何AI生图工具做得到。

还有各种试卷、报纸、游戏截图……非常非常逼真

作为AI产品经理,我看完以后只想搞清楚一个问题:为什么?

为什么半年前AI连老北京炸酱面五个字都写不对,现在突然能生成这种级别的中文内容?

这篇文章就来拆解这个问题。

扩散模型为什么写不对字

要理解为什么现在能写对,先得搞明白为什么以前写不对。

过去几年你用过的AI生图工具,Midjourney、DALL·E、Stable Diffusion,底层都是同一种技术路线,叫扩散模型

扩散模型画图的原理,一句话概括:从一团纯噪声开始,一步一步去掉噪点,最终还原出一张清晰的图。

想象这样一个场景。你面前有一张清晰的照片,你往上面不停地撒沙子,撒了1000次之后,照片被完全盖住,变成一片灰蒙蒙的噪点。扩散模型学的就是这个过程的逆操作:从一片纯噪点出发,一步一步扫掉沙子,扫1000步,底下的图就露出来了。

这个过程有一个关键特征:每一步去噪,模型是同时处理整张图所有像素的。

不存在先画左边再画右边,也不存在先画人脸再画背景。每一步,所有像素一起动,一起变清晰。

画风景、画人物、画产品图,这套方式没问题。山、云、树这些东西不需要严格的空间结构,像素之间的关系是大概对就行。

但文字完全不同。

开头的图上面的霉豆腐这几个字,每个字都有严格的笔画结构和部件关系。之前生图很容易就生成像霉豆腐但其实不是这三个字的文字,甚至都不是文字。

为什么?

因为扩散模型就像是不懂中文的人在画中文,而不是写中文,它同时生成所有像素,让它们看起来像中文就行。但文字左半边的像素不知道右半边在画什么,右半边也不知道左半边进展到了哪一步。

所以结果就是:每个局部单看还算合理,合在一起就不是一个字了。

扩散模型的问题不是画得不够好,是它的生成方式和文字的本质需求之间存在根本矛盾。文字需要笔画顺序和空间结构,扩散模型没有顺序的概念。

所以:扩散模型是在画字,不是在写字。

让AI学会读图的关键一步:图像分词

理解了扩散模型为什么搞不定文字,接下来的问题就是:那什么方式能搞定?

答案是自回归模型。也就是GPT系列用来生成文字的那套方式。

但在解释自回归模型怎么画图之前,有一个前置问题必须先讲清楚:图像怎么才能变得和文字一样,被模型当作一串序列来处理?

GPT生成文字的逻辑大家都熟悉了。它把一句话拆成一个个token,然后逐个预测下一个:

今天开心

每生成一个新词,都基于前面已经生成的所有词来决定。这就是自回归的核心:永远看前文,预测下一个。

但图像不是文字,它是一堆像素。怎么把一张图变成像文字一样的一串token?

这里有一个专门的技术组件,叫图像分词器,学术名称是VQ-VAE。它做的事情分三步。

第一步,把图像切成小块。一张256×256像素的图,按16×16像素一块来切,就变成了256个小方块。每个方块记录了原图中一个小区域的视觉信息。

第二步,每个小块压缩成一个向量。通过一个编码器网络,每个16×16的小方块被压缩成一个高维向量,包含了这个小块的核心视觉特征:颜色、纹理、边缘走向。

第三步,把向量转换成离散的整数编号。

模型预先学习好了一本码本,你可以理解为一本视觉词典。这本词典里存了大约8192个视觉词条,每个词条代表一种常见的视觉模式。有的词条代表蓝天的纹理,有的代表皮肤的质感,有的代表文字笔画的走向。

编码器输出的向量去这本词典里找最像的那一条,记下它的编号。于是一个小方块就被表示成了一个整数,比如3401

256个小方块都做完这个操作之后,一张图就变成了一串整数序列:

[3401, 782, 5519, 1023, 3401, 207, 4455, 891, …]

和文字的token序列形式完全一样:

“痛风诊断” → [29871, 1234, 6789, 1357, …]

到这一步,图像和文字在数据形式上统一了。都是一串数字,都可以用同一种模型来处理。

但这里要特别强调一点:图像变成token序列这件事本身,并不直接让文字渲染变准。它做的事情是给图像赋予了顺序

256个图像token不是随意排列的。它们按照从左到右、从上到下的空间位置排成一条序列。这意味着,如果模型按照这个顺序逐个生成token,那当它生成某个位置的内容时,它已经看过了这个位置左边和上面的所有内容。

拿开头那张直播截图来说。如果源头工厂四个字分布在连续的几个token位置上,那模型写到字的时候,它已经看到了源头两个字的token。它知道前面写的是什么,所以后面写出来的内容会和前面保持一致。

这就为下一步创造了条件。但光有顺序还不够。真正让文字从猜像素变成写字的,是自回归模型的生成方式,以及文字与图像共享同一个语义空间。这是下一部分要拆解的。

自回归模型为什么能写对字

上一部分解决了一个前提问题:通过图像分词器,图像可以变成一串有空间顺序的token序列。

这一部分拆解核心问题:在这个基础上,自回归模型到底做对了什么,让文字渲染的准确率从不到90%跳到了99%以上?

三层原因,逐层递进。

第一层:逐token生成,前后可以对齐

自回归模型生成图像的方式,和GPT生成文字完全一样:从第一个token开始,一个一个往后预测。每预测一个新token,都会参考前面所有已经生成的token。

回到那张直播截图上的3双9.9元。假设这几个字占了图像序列里连续的几个token位置。模型先生成了3对应的token,接着生成的时候它能看到前面已经有了3,然后生成9.9的时候它知道前面是3双,最后写的时候整个上下文都在。每一步都基于前文,不会出现9和**.9**互相不知道对方存在的情况。

这和扩散模型形成了根本对比。扩散模型同时生成所有像素,39.9互相不知道对方在画什么。自回归模型有先后顺序,先画的部分会影响后画的部分,天然保持了一致性。

但光有顺序还不够。如果模型只是按顺序生成像素块,但不理解这些像素块组成的是一个中文字,那顺序再对,也只是碰巧画对了而已。

第二层:文字和图像共享同一个语义空间

这是GPT Image 2最关键的架构变化。

在GPT Image 1 和 1.5 的时代,图像生成是挂在GPT-4o上的一个附属模块。工作方式类似于你跟一个翻译说需求,翻译理解之后转述给画师,画师按翻译的描述来画。中间有一次信息转换,翻译可能会漏掉细节,画师也可能理解偏了。

具体来说,prompt里的文字信息要经过一层中间编码(类似CLIP embedding)才能传给图像生成模块。这层编码能传递大概的语义,比如这里需要一些中文字,但传不了精确的字形结构,比如字的左边是病字头、右边是甬、甬的第一笔是竖。

GPT Image 2 的做法完全不同。据多个独立来源的技术分析,它是一个原生多模态模型,文字token和图像token在同一个模型内部被处理,共享同一套语义表征。

还记得开头那张痛风因果链的信息图吗?12个模块里嘌呤来源、尿酸生成、结晶物理学这些专业术语全部准确。这在以前是不可想象的。因为在新的架构下,模型对嘌呤这个词的理解,和它在医学对话里理解嘌呤时用的是同一套知识。它知道这是两个字、每个字怎么写、它的含义是什么。所以生成图像token到了该放这个词的位置时,它不是在猜像素,而是在写一个它认识的词。

扩散模型做不到这一点。扩散模型的文字理解和图像生成是两个分开的模块,中间隔着一层编码,信息必然有损耗。自回归模型把理解和生成合成了一件事,没有中间商。

第三层:从两阶段变成单次推理

还有一个架构层面的变化值得拆解。

GPT Image 1.5 的生成流程是两阶段的:先用语言模型理解prompt,生成一个中间表示,然后把这个中间表示传给图像生成模块去渲染。两个阶段、两个模块、一次交接。

GPT Image 2 据分析采用的是单次推理。理解prompt和生成图像在同一次前向计算中完成,不需要中间交接。

打个比方:1.5 的方式像是先看一遍菜谱记住步骤,然后合上菜谱凭记忆做菜,中间可能忘了某个调料的用量。2.0 的方式像是一边看菜谱一边做菜,每一步都能回看原文,不会遗漏任何细节。

这也是为什么GPT Image 2不仅文字准了,对复杂prompt的执行力也提升了一个量级。开头那张直播截图的prompt可能只有一句话,但最终画面里的直播间布局、促销牌文案、弹幕内容、购物车样式、价格标签,每一个元素都被精确执行了。因为理解和生图是一体的,不存在信息在传递过程中被打折。

三层叠在一起,才是完整的答案。

token化让图像有了空间顺序。自回归生成让每一步都能参考前文。文字和图像共享同一个模型让语义理解精确到了每一个字。再加上单次推理消除了信息传递的损耗。

这不是某个参数调优的结果,是生成范式的整体切换。类似NLP领域从RNN到Transformer的那种级别的换代。

补充说明:GPT Image 2的完整架构细节OpenAI尚未公开。以上分析基于多个独立来源的技术逆向分析(PNG元数据比对、API响应版本号追踪、LM Arena泄露样本交叉验证)以及自回归图像生成方向的公开学术研究(如NeurIPS 2024最佳论文VAR)。大方向可信度高,具体内部实现可能有出入。

电商主图、绘本、UI截图:哪些场景马上会变

技术拆解完了,回到一个更实际的问题:这件事对我们的工作到底有什么影响?

我把影响拆成两个层面。第一个是哪些具体场景马上会变,第二个是AI PM看产品的方式该怎么更新

先说场景。

过去AI生图有一个隐性的限制条件:只要图上需要出现中文,就没法直接用AI的输出。必须先用AI生成背景图,再手动用Canva或Photoshop叠一层文字。这个操作看起来简单,但它阻断了很多场景的自动化。

现在这个限制条件被拆掉了。以下几个场景会最先受到冲击:

  • 电商主图和促销素材。开头那张直播截图就是最好的例子,3双9.9元、10双19.9元每个字都准确。电商团队以前做一张主图或促销海报,需要设计师切图、排文字、调间距,一张图少说30分钟。现在一句prompt可以直出带完整中文标题和价格标签的成品图。不是出一个需要修改的半成品,是可以直接上架的成品。
  • 社交媒体封面和信息图。小红书、公众号、抖音封面图,每张都需要大字标题。以前AI能帮你生成好看的背景,但标题文字还是得手动加。现在标题可以和背景一起生成,风格统一,不存在文字层和背景层割裂的问题。
  • 产品UI截图和原型演示。需要做一个App界面的效果图给领导看?以前得打开Figma认真画。现在一句话描述就能生成带中文按钮、中文标签、中文导航栏的高保真界面截图。那张直播截图的UI元素准确到什么程度?关注按钮、弹幕区、购物车、价格标签,每一个组件的位置和样式都符合真实抖音的界面规范。
  • 儿童绘本和科普内容。开头那张痛风信息图就是例子。以前做这种图需要专业的医学插画师加上排版设计师配合,周期按天算。现在一个懂内容的人就能直接用AI产出带准确中文标注的复杂信息图。

这些场景的共同点是:中文文字曾经是AI生图投入生产的最后一道障碍,现在这道障碍没了。 再说判断框架。

作为AI PM,以后评估任何AI生图产品或者方案时,有一个问题应该变成你的第一反应:这个产品底层是扩散模型还是自回归模型?

如果是扩散模型,那文字渲染大概率还是靠后处理修补,本质问题没解决,中文场景要谨慎。

如果是自回归模型,那要进一步问:文字token和图像token是在同一个模型里联合训练的,还是两个模块拼接的?前者的文字能力是内生的,后者还是会有信息损耗。

这不是一个模型好坏的问题,是架构选择决定了能力边界。就像你不会期待一个基于关键词匹配的搜索引擎做语义理解一样,你也不应该期待一个扩散模型精准渲染中文。不是它不够努力,是路线不对。

理解这个区别之后,你看到市面上任何AI生图产品打出支持中文的卖点时,就知道该追问什么了。

结尾

回到开头那张处方笺。

一张AI生成的门诊处方,抬头准确、科室准确、手写药名准确、红色公章准确。而真正的医生处方,反而全是波浪线。

半年前,我们判断一张图是不是AI生成的,最快的方法就是看图里有没有中文。只要有中文,放大一看,一定露馅。

现在这个方法失效了。

这件事的意义不只是AI又进步了这么简单。它标志着AI生图从”能用来做创意参考”跨进了”能直接投入生产”的阶段。而跨过这条线的关键,不是图画得更好看了,是底层的生成范式从扩散切换到了自回归。

对AI PM来说,看懂这个技术变迁不是为了跟人聊天时多一个谈资。是为了在下一波产品机会出现的时候,你能判断什么是真正的能力跃升,什么只是换了层皮的营销包装。

作者:思敏

]]>