GPT image-2 – 青瓜传媒

GPT-Image-2现在最火的玩法！

青瓜传媒 — Mon, 04 May 2026 00:05:02 +0000

在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后，OpenAI 最新推出的 AI 生图大模型 GPT-Image-2，再次迎来了它人生中的高光时刻——

给人类看手相/面相。

只要拍一张自己手掌的高清照片发给 GPT-Image-2，再附上一段简单的 Prompt，它就会化身天桥底下的赛博半仙，为你生成一份排版精美、用词考究的掌纹性格与职业指南。

这场由 AI 爱好者 Linus Ekenstam 率先发起的趣味测试，迅速演变成全网算命狂欢。

连 Reddit 联合创始人 Alexis Ohanian 都没忍住，乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。

a16z 投资合伙人 Justine Moore 也凑了凑热闹。

附上 Linus Ekenstam 的提示词：

原提示词：based on my hand I want you to make a complete palm reading guide, Analyze the palm, the style of the guide should be clean and minimal, thin lines, rounded cards, overall very expensive looking. Focus on the palm reading, create a simple black on white contour of my main lines, as a little artwork. do your best）

（中文翻译：根据我的手掌，我希望你制作一份完整的手相解读指南，分析手掌纹路。指南风格应简洁极简，细线条、圆角卡片，整体呈现高端质感。重点放在手相解读上，用简单的黑白轮廓线绘制我的主要掌纹，作为一幅小插图。请尽力完成。）

为了验证这个赛博半仙的成色，立刻给它安排了一波全方位实测。丢一张熬夜打工人的手相过去测一测，好家伙，AI 一本正经地顺着纹路就是一顿猛夸。

提示词：根据我的手掌，我希望你制作一份完整的手相解读指南，分析手掌纹路。指南风格应简洁极简，细线条、圆角卡片，整体呈现高端质感。重点放在手相解读上，用简单的黑白轮廓线绘制我的主要掌纹，作为一幅小插图。2K

基于同一提示词，再测试一次，解决的结果也大致相同，越看也越符合我对自己的评价，难道这 AI 真是半仙降人间？

等等，画风逐渐开始离谱。

随手丢一张《熊出没》里的熊大掌纹过去。它照样能煞有介事地一顿乱吹。连物种都不挑了是吧。

除了看手相，甚至还有看面相的版本。世界首富马斯克被测出了「理性，克制，稳健」。

提示词：根据我的面部照片，制作一份完整的面相解读指南，分析五官与面部特征。指南风格简洁极简，细线条、圆角卡片，整体呈现高端质感。重点放在面相解读上，用简单的黑白轮廓线绘制我的主要面部特征与区域划分，作为一幅小插图。2K

再丢一张猪猪侠的脸过去，看完这套高大上的性格解析，只能感叹一句，老猪啊，你能翻红爆火还是有一定道理的。

X 博主 @MrLarus 也给出了面相测试进阶版。

上下滑动查看更多内容

🔗 https://x.com/MrLarus/status/2047930679552307370

当然，其实用 AI 看手相/面相，并不是什么新鲜事，在国内社交媒体上也非常火，包括 Nano Banana Pro 发布之后也有一些网友探索出类似的玩法，只是图片的质量效果可能没有 GPT-Image-2 那么好。

而这种玩法的核心逻辑极其简单，它精准地拿捏了人类的两大软肋：对未知命运的窥探欲，以及急需被外界确认的自我存在感。

GPT-Image-2 给出的算命结果，与其说是「算得准」，不如说是「情商高」。在 Linus Ekenstam 晒出的截图中，它并没有像传统算命先生那样用「印堂发黑、必有血光之灾」来恐吓你，而是使用了各种现代职场黑话。

比如它夸赞 Linus 是一个「有底线的忠诚者」，并为他规划了完美的职业路径。这简直是巴纳姆效应（Barnum effect）在 AI 时代的完美复刻。

那些看似为你量身定制的性格描述，其实放在任何一个渴望成功的人身上都无比契合。就像一位网友一针见血地吐槽道：「这不全都是机器编出来的狗屁吗？哈哈，你只要随便调调模型的温度（Temperature，控制 AI 生成随机性的参数），它能变着花样夸你。」

但大众并不在乎它是不是玄学，大众只在乎它「懂我」。

一些嗅觉极其敏锐的开发者们，立刻在这场荒诞的狂欢中闻到了金钱的味道。比如就有网友表示：「有人会用这个开发出一款价值百万美元的爆款应用」

不需要训练复杂的模型，不需要深耕垂类行业，只需要接入 OpenAI 的 API，套上一个神乎其神的 UI 界面，一个能够源源不断印钞的「赛博算命摊」就支起来了。

AI 时代的淘金热里，果然还是卖铲子和卖心理安慰的最赚钱。

不过，需要注意的是，用这种玩法，其实有可能会泄露你的掌纹和指纹等信息，而以往黑客们费尽心机都难以窃取的生物特征，如今却被用户自己字面意义上的「双手奉上」。

Sam Altman 也许并不会真的拿着你的掌纹去盗刷你的信用卡，但这些带有极高颗粒度的真实人类生物数据，一旦进入了深不见底的训练语料库，就彻底脱离了你的掌控。

压死骆驼的最后一根稻草，往往就是不经意间交出的底线。在数据安全事故频发的今天，谁能保证这些「AI 算命」的套壳应用，不会将你的掌纹数据打包卖给第三方？

而当我们复盘整个互联网科技史，简直就是一个换着花样搞赛博玄学的轮回。

从早期的网页版星座配对，到风靡全网的性格测试 MBTI/SBTI；从 ChatGPT 刚发布时被用来算塔罗牌，到如今用最新的视觉模型看掌纹，技术越是精密、越是理性，人类就越喜欢用它来消解生命中的不确定性。

我们沉迷于 AI 算命，是因为在这样一个充满焦虑和变动的时代。除了图一乐，我们需要一个全知全能的「神」来给我们吃定心丸。

AI 恰好扮演了这个角色。它没有情绪，它拥有海量数据，它输出的结果带着一种不容置疑的「机器客观性」——即便我们心里清楚，它只是在玩弄概率和词汇。

既浪漫，也荒诞。

AI 玄学内容仅供娱乐，切勿轻信

作者：发现明日产品的

来源：APPSO

GPT-Image-2 实测 8 维

青瓜传媒 — Sat, 02 May 2026 00:05:07 +0000

4 月 21 日凌晨，OpenAI 没有发布会、没有 keynote、甚至没有预热海报，只悄悄更新了一个模型页，就把gpt-image-2塞进了所有 ChatGPT 和 Codex 用户手里。

结果是 —— 上线 12 小时，在 Image Arena 排行榜以 1,512 分、领先第二名 242 分的成绩登顶，创下该榜有史以来最大分差。发布前以 maskingtape-alpha、gaffertape-alpha 代号匿名内测时，把此前被视作天花板的 Nano Banana Pro 直接甩开了一档。

我做多模态评测这一年多，从 DALL·E 3、MJ v6/v7、Seedream 3/4、Nano Banana、到 GPT Image 1/1.5，几乎每一代都是”看起来惊艳、用起来翻车”。所以我对”AI PM 可不可以把这个模型真的接进生产线”这件事，始终保持着职业性冷静。

这一次，我的冷静破了防。

这篇我拿着 8 个 PM 最关心的维度、30+ 张实测图跑出来的产品价值拆解报告。核心回答三个问题：

它到底在哪些场景能直接落地 —— 不是”看着炸”，是”能交付客户”；
相比 Midjourney V8、Nano Banana 2、Seedream 5.0 Lite、Flux 2 Pro，它的差异化在哪；
作为 PM，我该不该把它接到自己的产品流水线里。

先把数据事实钉死

下面进入 PM 视角的 8 个维度。

维度一 · 文字渲染 —— AI 图像落地的”卡点一号”终于被拔了

为什么这个维度是 PM 最该关心的第一件事

过去两年，“AI 能不能把中文写对”就是一条生死线。电商主图、小红书封面、表情包、Logo、海报、UI 截图 —— 只要里面有字，AI 就从”设计实习生”瞬间退化成”鬼画符生成器”。

GPT Image 2 把这条线直接踩平了。对中文用户而言，这一代最该关心的变化是：中文不再是图像模型的二等公民。横排、竖排、长段落、菜单式密集排版，都能跑到印刷级。

Prompt 1.1｜设计一张小红书封面，比例 3:4，主标题”AI 产品经理必看的 10 个工具”字号最大放正中上方，副标题”2026 年最新整理”字号居中，底部放一行小字”@拍拍鱼 · AI PM 手记”。背景是柔和的紫粉渐变，点缀少量几何装饰。要求中文字形准确、三级文字层次清晰、无错别字。

图 1.1｜中文长句渲染（标题+副标题+正文 3 级层次）

Prompt 1.2｜生成一张方形表情包，一只橘猫瘫在键盘上翻白眼，顶部写中文”写不动了 “，底部写英文”Can’t code anymore”，右下角标注”v1.0″。扁平插画风，背景浅米色。要求中英文同框清晰、emoji 正确、标点间距自然。

图 1.2｜中英文混排表情包（含 emoji 与标点）

Prompt 1.3｜生成一张印刷级餐厅菜单海报，比例 2:3，顶部店名”老上海本帮菜 · Since 1998″，底下三列，各列 3 道招牌菜，下方五个语言版本价目表（中文/英文/日文/韩文/法文），每行配价格。复古排版、米黄纸质背景、衬线字体。要求所有文字无错别字、价格格式正确、多语言对齐整齐。

图 1.3｜印刷级餐厅菜单（5 种语言 + 价格格式）

Prompt 1.4｜生成一张古风书法卷轴，竖排毛笔字”千里之行始于足下”，落款”丙午年孟夏书”，右下盖朱红印章”印”。再在卷轴下方横排配一行现代楷体数字”2026.04.21″。宣纸质感、留白充足。要求繁简不混用、竖排字间距自然、印章文字清晰。

图 1.4｜数字+符号+古风书法组合

我的点评

我跑了一张极限压力测试图：一个公众人物十年生涯的中文信息长图 —— 左侧是肖像配文案，右侧是逐年时间线，每年带中文描述、代表作、封面缩图。信息密度 + 美感 + 准确性三维度同时打到 90 分以上。

横排短句、标题、单词级 Logo —— 接近零错误，可直接上生产；
长段落中文 —— 不再漂移，偶有标点密度问题；
竖排、书法、变形艺术字 —— 仍有约 10-15% 失败率，需要兜底；
对比 Seedream 5.0 Lite，中文字体风格丰富度仍略弱，但准确率全面反超。

PM 视角结论：电商主图、短标题海报、公众号头图、Logo、表情包 —— 今天就能替代一个初级设计师。这一点，一年前我还不敢写进测评里。

维度二 · 指令遵循 —— “出好看的图” vs “出你要的图”

为什么重要

PM 真实场景里的一条 Prompt，通常是 主体 + 场景 + 风格 + 构图 + 光线 + 道具 + 文字 + 数量 + 否定约束 的集合。模型能不能照单全收，是从”玩具”进化成”生产工具”的分水岭。

这个维度我拆成5 个子项，每一项都是二元可验证，避开”好看不好看”这种主观判断：

① 实体属性（What / How many）—— 数量、颜色、种类、材质
② 空间关系（Where）—— 方位、前后景、比例、构图位置
③ 动作姿态（Doing What）—— 动作、表情、朝向、互动
④ 否定排除（Not What）—— 不要 X / 不出现 Y
⑤ 专业术语执行（Jargon）—— 浅景深 / 逆光 / 三分法构图等摄影美术术语

开场先上一张”五要素综合压力测试”作为体感锚点，再逐项拆解。

Prompt 2.0｜一个穿红色连衣裙的亚裔女孩，左手抱一只橘猫，右手举着一块白底黑字写有”HELLO 2026″的手写牌，站在东京涩谷十字路口斑马线中央，背景是黄昏时分的大型 LED 广告牌，电影感暖调布光、浅景深、背景虚化。要求：人、物、场景、文字、光线五要素同时准确呈现。

图 2.0｜综合压力测试（人+物+场景+文字+光线）

① 实体属性 —— 数量 / 颜色 / 种类

Prompt 2.1｜一张沙发上正好 3 只小猫并排躺着：最左是纯黑色短毛猫、中间是橘白相间的狸花猫、最右是纯白色长毛猫。每只猫表情不同（睡着 / 打哈欠 / 睁眼看镜头）。客厅午后阳光、自然色温。必须是 3 只，不能多也不能少，每只颜色和品种严格对应。

图 2.1｜实体属性（3 只猫 × 3 种颜色 × 3 种表情）

② 空间关系 —— 方位 / 前后 / 构图

Prompt 2.2｜一张写字桌的俯视图：桌子正中央放一本打开的蓝色笔记本，笔记本左侧放一支黑色钢笔，右侧放一个白色咖啡杯，笔记本上方放一副金属边眼镜，下方放一部黑色手机。木纹桌面、晨光侧打。严格遵守左/右/上/下方位关系。

图 2.2｜空间关系（上下左右四方位精确）

③ 动作姿态 —— 动作 / 表情 / 朝向

Prompt 2.3｜一张室内场景图：一位穿灰色运动服的女生正在做瑜伽的下犬式动作（身体呈倒 V 形、双手双脚着地、臀部朝上），脸部朝向镜头露出平静微笑；她身边一只金毛犬正在腾空跳跃接飞盘（四脚离地、嘴张开咬向飞盘）；背景墙上挂钟指针指向 7:20。要求：人物姿势、狗的动作、时钟指针三项指令全部精确呈现。

图 2.3｜动作姿态（瑜伽下犬式 + 狗跳跃咬飞盘 + 时钟指针）

④ 否定排除 —— 不要 X

Prompt 2.4｜一座清晨的海边咖啡馆露台，木质长桌上放着一杯冒热气的拿铁和一本摊开的书。不要出现任何人物、不要任何眼镜类物品、不要任何水印或文字、不要任何品牌 Logo、不要出现海鸥。自然光、极简杂志风。

图 2.4｜否定排除（5 条 “不要 X” 同时生效）

⑤ 专业术语执行 —— 模型听不听得懂”行话”

Prompt 2.5｜生成一张人像摄影作品：35mm 定焦、f/1.4 浅景深（背景严重虚化）、逆光剪影（夕阳在人物身后形成发丝光轮廓）、三分法构图（人物眼睛落在右上三分线交点）、电影感 2.35:1 画幅、冷调阴影 + 暖调高光（橙青 color grading）。主体是一位 30 岁亚裔女性侧脸。

图 2.5｜专业术语执行（浅景深 + 逆光 + 三分法 + 橙青调色）

我的点评

GPT-Image-2 是目前市面上指令遵循最强的图像模型，没有之一。五个子项里它在四个上拉开断层式优势：

实体属性：3 只就是 3 只，颜色和品种严格对应，不会偷偷变 2 只或 4 只；
空间关系：左/右/前/后基本不翻车，即使 4 方位同时约束也能守住；
动作姿态：瑜伽下犬式、狗咬飞盘、指针 7:20 这种复合动作约束，能同时命中约 80%；
否定指令：”不要 X” 真的能不出现 X —— 这是 MJ 系列两年解决不了的老病；
专业术语：浅景深、逆光、三分法、橙青调色这类行话，接近资深摄影师对术语的执行精度。

如果说 Midjourney V8 是“出好看的图”的专家（纯审美向的电影大片/编辑插画依然是它的主场），那 GPT-Image-2 就是“出你要的图”的专家。作为 C 端产品的后端模型，后者才是真正可落地的那一档。

PM 视角结论：任何”用户输入需求 → AI 出图”的 C 端产品，GPT-Image-2 是首选底模。因为愿意认真写 Prompt 的用户，期待的就是”按我说的来”，不是”惊喜抽卡”。

维度三 · 人物 / IP 一致性 —— LoRA 微调时代，可能真的结束了

为什么重要

人物一致性是绘本、漫画、IP 衍生品、电商达人分身、虚拟人脚本的命门。过去一年做这件事的唯一解法是 LoRA 微调，单个 IP 训练成本 3,000-10,000 元，还要算法工程师配合。

Prompt 3.1（定妆图）｜创建一个 IP 角色定妆图：一位 28 岁亚裔女性，齐肩黑色波波头、单眼皮、鼻梁小痣在右侧、穿米白色针织衫 + 牛仔蓝工装裤 + 白色运动鞋，戴一副细金丝圆框眼镜。白色影棚背景、正脸半身、柔光。后续所有图都需保持此人物特征一致。角色代号：RUI。

图 3.1｜主角定妆图

Prompt 3.2-3.5（多场景一致性）｜保持上图 RUI 的人物特征（齐肩波波头、双眼皮圆眼睛）不变，分别生成 4 张场景图：

① 她坐在上海静安咖啡馆靠窗位置、手拿 MacBook；

② 她站在雪山徒步栈道上、穿红色冲锋衣（服装换、五官不变）；

③ 她在会议室做 PPT 演讲、穿黑色正装西服；

④ 她的 3/4 侧脸特写，背景是傍晚城市街道。

所有图片必须是同一个人，五官一致度 ≥ 90%。

图 3.2-3.5｜同一角色 × 4 个差异化场景（咖啡馆 / 雪山 / 换职业装 / 侧脸）

Prompt 3.6（Thinking Mode 8 格面板）｜使用 Thinking Mode，单次生成一张 2×4 八宫格绘本故事插画，主角始终是 RUI。八格内容：① 清晨闹钟响她伸懒腰 → ② 厨房煮咖啡 → ③ 地铁上看手机 → ④ 办公室开会 → ⑤ 午餐和同事聊天 → ⑥ 下午写文档 → ⑦ 傍晚瑜伽 → ⑧ 夜晚台灯下读书。温暖插画风、色调统一（米白 + 奶咖 + 淡粉）、每格左下角标注序号 ①②③④⑤⑥⑦⑧。

图 3.6｜8 宫格同角色故事面板（Thinking Mode 单次生成）

我的点评

Thinking Mode 下单次 Prompt 可输出 8 张保持角色/物体/品牌色一致的面板图 —— 这是过去整个行业都没有的原语；
正脸 & 3/4 侧脸一致性可做到 85-90% 商用可用度；
侧脸、背影、极端视角仍有约 15% 漂移；
服装纽扣位置、局部刺绣图案这类极细节无法像素级锁死。

这意味着什么？绘本工作室、小体量 IP 方、电商代运营 —— 整条人物素材生产线的算法成本从”LoRA 微调+专人维护”降到”Prompt + Thinking Mode”。原本 3 人 1 周的工作量，现在 1 天跑完。

更大的潜台词是：AI 生成的图像，已经正式走到了”普通人无法分辨真假“的那条线。对 IP 生产线来说，这一天来得比我预期早至少 18 个月。

维度四 · 多图融合 / 参考图理解 —— 电商设计的”半条命”没了

为什么重要

PM 真实工作里的图，90% 不是从零生成的。而是：“我有一张产品图 + 一张风格图 + 一张模特图，你帮我融合。”这个能力直接决定 AI 能不能替掉电商设计流水线的一半工位。

Prompt 4.1（产品+风格融合）｜【参考图 A：白色头戴式耳机产品图】【参考图 B：日系极简海报】

把耳机作为主体放置在参考图 B 风格的极简海报中：大面积留白、居中构图、细衬线英文标语”Silence, Designed.”，底部一行中文”拍拍鱼 Studio · 2026 新品”。保留耳机型号、颜色、比例不变。

参考图：

生成图：

图 4.1｜产品图 + 极简风格海报融合

Prompt 4.2（三图融合）｜【参考图 A：产品（白色耳机）】【参考图 B：亚裔女性模特正脸半身】【参考图 C：纽约地铁站场景】

生成一张商业海报：模特戴着参考图 A 的耳机，站在参考图 C 的地铁站里，画面右侧竖排大字”Tune Out The Noise”，下方小字”新品首发 ¥1,299″。保留耳机型号和模特五官不变。

参考图：

生成图：

图 4.2｜三图融合（产品 + 模特 + 场景）

Prompt 4.3（风格迁移三连）｜【参考图：一张上海外滩傍晚实拍照】

基于这张照片分别生成三张风格化版本，并排输出：① 吉卜力宫崎骏动画风；② 赛博朋克霓虹风；③ 中国水墨写意风。构图与主体建筑轮廓保持一致，只改变笔触、光影和色彩。

图 4.3｜风格迁移（照片 → 吉卜力 / 赛博朋克 / 水墨）

Prompt 4.4（局部保留+整体重构）｜【参考图：白色头戴式耳机产品图】

保留这款耳机的型号、头梁弧度、耳罩大小、Logo 位置、颜色等所有细节 100% 不变，但把背景场景分别换成：① 北极冰川；② 日本京都竹林；③ 迪拜沙漠。要求耳机细节像素级不变。

图 4.4｜局部保留 + 整体重构

我的点评

产品主体的型号、颜色、结构细节保持度 ~90%；
大众风格迁移（吉卜力/赛博朋克/极简）效果贴近顶级设计师手绘；
小众风格（地方性审美、非著名插画师笔触）仍会”平均化”掉。

PM 视角结论：电商主图换背景 / 达人种草图批量生产 / 产品海报多风格 AB —— 这三条线可以接 API 替代。以日均 500 图的电商代运营为例，GPT-Image-2 medium 档 API 仅约 2,650 元。

维度五 · 图像编辑 —— GPT-Image-2 被低估的商业金矿

为什么重要

“帮我把路人去掉””把裙子改成红色””在桌上加一杯咖啡” —— 是真实用户最高频的图像需求。现在一句自然语言精准搞定。

Prompt 5.1（抹除）｜【上传图：一张旅游景点合照，主体是女生站在湖边，背景有 3 个路人和右下角”@xx 旅拍”水印】

请把背景中的 3 个路人全部去掉，把右下角的水印也抹除干净。天空、湖面、栈道等填补区域保持自然纹理连贯，不能有鬼影或撕裂。

图 5.1｜物体抹除（去路人 / 去水印）

Prompt 5.2（局部替换 · 多轮编辑）｜【上传图：图 3.1 的 RUI 定妆图】

① 把她的米白色针织衫改成一字肩酒红色；

② 再把齐肩波波头改成黑色大波浪；

③ 再戴上一副金丝圆框眼镜。

每一步只改指定元素，其余五官、姿势、背景保持完全不变。

图 5.2｜局部替换（换衣服颜色 / 换发型）

Prompt 5.3（元素增补）｜【上传图：一张空书桌俯视图】

在这张书桌上增加：① 桌面右侧增加一只正在打盹的橘色猫咪；② 笔记本旁边增加一本写着”AI PM 日记”的深蓝色本子；③ 左上角增加一支向日葵插在玻璃瓶里。所有新增元素的光影方向与原图一致。

图 5.3｜元素增补（加猫 / 加文字 / 加道具）

Prompt 5.4（背景替换）｜【上传图：5.2的女生半身人像】

保留人物五官、发型、服装、姿势、光影完全不变，去除文字，把背景换成：① 东京街头夜景；② 巴黎埃菲尔铁塔前；③ 北海道雪原黄昏。三张输出。

图 5.4｜背景替换（主体保留，场景整换）

我的点评

Thinking Mode 带来的”无漂移多轮编辑”是这次的隐藏王炸。过去模型改完一次图，再改第二次，主体就会变脸；GPT-Image-2 能连续编辑 5 轮以上，主体保持度不掉。

局部修改对周围环境破坏极小；
抹除后的填补自然，无鬼影；
复杂前景（多人群像 / 密集纹理）仍会翻车约 20%。

PM 视角结论：这可能是 GPT-Image-2 被低估的商业价值。围绕它可以做一款”自然语言 AI 修图 C 端 App”。

维度六 · 中式美学 / 本土化 —— 最后一块短板，但已经可用

为什么重要

所有GPT 系模型过去都有同一个老大难：生成出来的中国场景”像老外拍的中国”。对做中国本土 C 端产品，这是致命短板。

Prompt 6.1（市井烟火）｜上海老弄堂清晨 6 点场景：一位 70 岁奶奶穿蓝色棉布衫坐在小板凳上择青菜，旁边停着一辆老式二八自行车，石库门门头挂着晾晒的白衬衫，远处油条摊升起热气。薄雾、暖色晨光、纪实摄影风格。要求人物五官是真实的中国奶奶长相，不是”亚裔但不像中国人”。

图 6.1｜上海弄堂清晨（奶奶择菜 / 早餐摊）

Prompt 6.2（传统建筑）｜两张对比图：

① 安徽宏村徽派民居——马头墙、黑瓦白墙、倒映在月沼水面；

② 苏州拙政园——亭台水榭、太湖石叠山、古铜色木构梁柱。两张均为晴天柔光，传统摄影构图。

要求建筑形制（马头墙几级、翘檐角度、门楣雕花）准确。

图 6.2｜徽派建筑 / 苏州园林

Prompt 6.3（春节团圆饭）｜中国北方家庭春节年夜饭俯视图：八仙桌上摆满红烧肉、饺子（褶子清晰可数）、年年有鱼、红烧肘子等菜，桌面撒有红色纸屑，门框贴着正确上下联的红对联（上联贴右、下联贴左、横批”阖家安康”居上），墙上挂年画，桌边放红包和小孩的糖果盒。暖色灯光、居家纪实风。

图 6.3｜春节团圆饭（对联 + 红包 + 饺子 + 年画）

[多人生成的手指还是会有问题，也会有些穿模与物理不合理现象，但总体的中国风体现已经比以前改善太多]

Prompt 6.4（汉服形制）｜一位年轻中国女性身穿明制汉服立领长袄 + 马面裙，严格右衽（左襟压右襟）、云肩绣海棠纹、发髻为三绺头簪珠钗，手持团扇站在青砖院落的海棠树下。工笔画风格，五官真实东方面孔，服饰形制考据准确。

图 6.4｜古风人物（汉服形制细节）

[手部细节仍容易崩]

我的点评

相比 GPT Image 1.5，中国场景真实度提升明显，但对比 Seedream 5.0 Lite / 即梦仍有差距：

食物质感：国产模型对”红烧肉应该长什么样””饺子褶子应该几个”更有谱；
人物五官：GPT-Image-2 仍偶发”亚裔但不像中国人”的漂移；
文化细节：对联上下联位置、汉服左衽右衽这些形制细节会错。

PM 视角结论：

面向欧美 / 东南亚市场的中国元素内容 —— GPT-Image-2 首选；
中国本土电商 / 小红书 / 节日营销 —— 我仍会优先 Seedream 5.0 Lite / 即梦，或把 GPT-Image-2 的构图结果 + 国产模型局部重绘。

维度七 · 商业场景实用性 —— 当”初级设计师实习生”能不能交付？

Prompt 7.1（电商主图）｜天猫主图 1:1，亚裔女模特手持白色便携式保温杯站在浅粉背景前，主标题大字”0°C 也能保温 12 小时”，左上角促销角标”限时 ¥149″（原价划线 ¥299），右下角”天猫旗舰店”Logo 占位。杯身品牌字”MOCHI”清晰可读。

图 7.1｜电商主图（产品 + 模特 + 文字 + 价格）

Prompt 7.2（小红书封面）｜小红书封面 3:4，粉黄渐变背景，主标题”AI PM 一天的 8 小时”超粗黑体大字居中，右上角贴一个”深度好文”角标，左下角作者头像圆框 + “@拍拍鱼”，底部一排 3 个标签”#AIPM #多模态 #职场”。小红书风格强烈。

图 7.2｜小红书封面（博主风格化）

Prompt 7.3（公众号头图）｜公众号头图 16:9，深色商务质感背景（墨蓝 + 金色点缀），主标题”GPT-Image-2 深度测评”衬线大字居中偏左，副标题”一个 AI PM 的 8 维拆解”次大字在其下方，右下角小字”拍拍鱼 · 2026.04″。整体排版克制专业。

图 7.3｜公众号头图（16:9 + 3 级文字层次）

Prompt 7.4（三 Logo）｜一次生成 3 个同品牌名”MOCHI”的 Logo 方案并排展示：

① 科技咖啡品牌——极简无衬线 + 咖啡豆几何图形；

② 儿童绘本 IP——圆润手写体 + 小熊图形；

③ AI SaaS 工具——粗体字母 M 嵌入电路纹理，深紫渐变。

每个 Logo 下方标注名称，白色背景。

图 7.4｜Logo 设计（3 个不同行业调性）

Prompt 7.5（表情包 9 宫格）｜一张 3×3 九宫格表情包，主角是同一只白色柴犬 IP，九种情绪分别配中文字：①”打工人上线”②”好累啊”③”不想动”④”冲鸭”⑤”谢邀”⑥”摸鱼中”⑦”已读乱回”⑧”溜了溜了”⑨”晚安 “。扁平可爱风格，同一形象、同一配色（白+浅蓝），每格背景色略不同。

图 7.5｜表情包 9 宫格（同 IP + 多情绪）

Prompt 7.6（Thinking Mode 绘本）｜使用 Thinking Mode，单次生成一本 8 页儿童绘本内页（2×4 排列），主角”小熊 Momo”始终一致。故事：①Momo 醒来→②出门找朋友→③遇到下雨→④躲进树洞→⑤发现小松鼠→⑥一起分享蜂蜜→⑦雨过天晴→⑧手拉手回家。柔和水彩风、色调统一（奶白+蜜糖黄+雾灰绿）、每页左下角页码①-⑧。

图 7.6｜绘本 8 格连环插画（Thinking Mode 单次生成）

Prompt 7.7（UI 截图）｜一次生成 3 张手机 UI 截图并排展示：① 小红书风格的笔记详情页（浅色模式，带真实评论）；② 微信朋友圈动态（浅色模式，含点赞/评论/9 宫格图片）；③ Twitter 风格信息流（深色模式，含转发/引用/数据）。所有文字、数字、头像、时间戳、按钮图标均为印刷级清晰度，内容看起来像真实应用而非示意图。

图 7.7｜UI 截图（仿小红书 / 朋友圈 / 推特，含深色模式）

真实生产力结论（带成本对比）

维度八 · 弱项与边界 —— 知道它不能做什么，比知道能做什么更重要

OpenAI 官方博客专门列了一节 Limitations，结合实测，PM 必须警惕的硬边界：

Prompt 8.1（压力测试 · 手部）｜一位钢琴家的双手特写正在弹奏三角钢琴的琴键：十根手指清晰可数、每只手 5 根、指甲完整、指节透视合理，左手小指正在按低音 A，右手拇指正在按中央 C。45° 侧俯视、电影质感。

图 8.1｜复杂手部动作（弹钢琴 / 编织 / 剪刀手，手指比例还是会不合理）

Prompt 8.2（压力测试 · 密集人群）｜一张陆家嘴金融中心早高峰地铁口实拍照，画面中至少有 15 张清晰可见的人脸，每个人表情各异、穿着不同、走向不一。真实纪实摄影风格。

图 8.2｜密集人群（10+ 人脸仍会崩）

Prompt 8.3（压力测试 · 物理建模）｜两张对比图：① 一个正在倾倒牛奶到玻璃杯里的瞬间，液体飞溅、气泡、反光、杯口液面张力都要符合物理；② 一个标准 3×3 魔方正处于”白色面朝上、需要再转两步还原”的状态，请生成”下一步应该怎么转”的逐步指南图（3 帧）。

图 8.3｜精确物理建模（液体流动 / 镜面反射 / 折纸指南 / 魔方还原步骤）

Prompt 8.4（压力测试 · 工业图纸）｜一张机械腕表的爆炸图技术插画，包含：表壳、蓝宝石镜面、秒针/分针/时针、主发条、擒纵轮、摆轮游丝、棘爪、齿轮组（至少 7 片齿轮，齿数正确且啮合）、表冠、底盖等部件，每个部件旁标注英文零件名。白底、机械工程制图风格。这类像素级工业图是当前模型的天花板测试。

图 8.4｜像素级工业图纸（手表齿轮 / 机械爆炸图）

我的点评

GPT-Image-2 的共性弱点是 “细节密度 + 物理因果”：越接近”需要像素级精确 + 物理逻辑自洽”的任务，越容易出问题。折纸指南、魔方拼图这类”需要完整物理世界模型”的任务，官方自己就把它列为短板 —— 这种诚实比任何吹爆都有参考价值。

以及 PM 真正需要警惕的四条成本 & 合规红线：

版权风险 —— 对知名 IP 的”学习”能力比上代更强，商用前必须做版权过滤层；
价值观风险 —— 历史 / 政治 / 宗教话题仍偶发不稳定输出，toC 产品必须加审核；
成本 —— high 档方图 $0.211/张，比 Flux 2 Pro、Seedream 5.0 Lite 高 3-5 倍，批量场景必须先算 ROI 再接；
延迟 —— Thinking Mode 复杂 Prompt 最长 2 分钟，不适合实时 C 端交互场景。

写在最后 · 作为 AI PM，我会怎么用 GPT-Image-2？

回到开头那三个问题。

① 能直接落地的 4 类产品

AI 电商代运营工具 —— 主图批量 + 背景替换 + 文字渲染 + 多风格 AB；
AI 内容创作 SaaS —— 小红书 / 公众号 / 短视频封面 / 头图一体化；
AI 绘本 & IP 工作室工具 —— 角色一致性 + 多场景 + Thinking Mode 8 格；
自然语言 AI 修图 C 端 App —— Photoshop 的降维打击。

② 与对标模型的差异化定位（2026-Q2 最新）

③ 我最关心的 3 个产品机会窗口

“AI 设计助理” SaaS —— 面向中小电商 / 自媒体，月费 99-299 元替代兼职设计师工位，ROI 跑得通；
“IP 人物工厂” —— 面向绘本工作室 / 小 IP 团队，把 LoRA 微调时代的算法成本一次性抹平；
“自然语言修图” C 端 App —— 把图像编辑下沉到小白用户，学习曲线从小时级压到句子级。

GPT-Image-2 不是”又一个炫技模型”，

它是第一个让 PM 觉得”可以认真接入产品流水线”的图像模型。

让”文字驱动图像”从创意工具变成生产工具。

让”设计”这件事，从稀缺变成标配。

如果说 Coding 有过 Vibe Coding 时刻，那现在就是做图的”平权时刻” —— “做图”这个职能，第一次从成本中心变成了能力杠杆。

本文由 @拍拍鱼

GPT Image 2 凭什么这么强？

青瓜传媒 — Tue, 28 Apr 2026 03:08:36 +0000

GPT Image 2 凭什么这么强？

是扩散模型又迭代了一版？是把 DiT 的参数量从 7B 扩到 20B？是训了更多高质量数据？

这些答案都对，但都不够。

以下是我们与多位从业者交流后，提炼出的几个值得关注的技术方向，并尝试做出更清晰的解释。

先给结论：OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划，至于最后一步的像素生成，可能由扩散组件或其他解码器完成。

而这个LLM，极大可能是GPT-4o。

支撑这个推论的，首先是两条直接线索。

模型自述

C2PA溯源验证

C2PA 是一种内容溯源标准，相当于给每张 AI 生成的图打上一个数字身份证。任何人拿到这张图，都能查到它是由 GPT Image 2 生成的、生成时间是什么、经过了哪些修改。

有专业人士在metadata2go.com上对image 2生成的图片进行元数据提取。发现在actions_software_agent_name一栏上记录着GPT-4o。

这也能理解为什么这次image 2的表现惊人了。

图片源于：【深入调查：OAI最新图像模型底层是GPT-4o – 祈星函 | 小红书 – 你的生活兴趣社区】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share

单凭这两条当然不足以拆解全部秘密。但当我们带着“LLM 主导”的假定回头审视它的每一项能力跃迁时，这些变化，忽然有了统一的解释。

一、图像语义，从像素到token

1.1

过去两年，AI 生图领域有一条不成文的鄙视链：Midjourney 负责美学，Stable Diffusion 负责可控性，DALL·E 负责……嗯，负责被 OpenAI 发布。但不管你站哪一队，有一件事是所有人的共识——文字是 AI 的鬼门关。

你能让 AI 画出逆光下缅因猫毛发的半透明质感，却无法让它写对招牌上的“Coffee”六个字母。一个能理解顶级光影描述的模型，在文字上给出的结果仿佛楔形文字。这件事的荒诞与根源，就藏在扩散模型的工作原理里。

先说扩散模型为什么写不好字？

因为它的核心是一个从噪声中还原图像的“雕塑家”：

训练时，向清晰照片逐步撒噪声，直到变成纯电视雪花，模型学习逆向去噪。

生成时，从一片随机噪声开始，每步都靠 U-Net 预测并擦除噪声，几十步迭代后“雕”出毛发、虹膜和光影。

这个过程本质上在还原连续的、可以用概率无限逼近的纹理。毛发可以稍微硬一点或软一点，颜色可以偏暖 5%，无伤大雅。

但文字是离散符号，不存在“像不像”，只有“是不是”。字母 A 就是 A，你不能给它加 15% 的 B 和 8% 的 C 还指望它依然是 A。扩散模型的每一步去噪都是一个微小“估计”，用在纹理上是风格，用在文字上就是 O 变 0，或是拼出 WElcOm e。

最终就成了外行眼中的“楔形文字”。

不仅如此，扩散模型天然缺乏跨轮编辑的稳定一致性。你让它改一个局部，它本质上是整张图重新画一遍，没改动的地方也会悄悄漂移。

但GPT Image 2现在不仅能“写对字”，还能保持“有记忆”的一致性例如：你修改一个字之后，周围的文字会自动调整间距；当你把“咖啡”改成“红茶”，它不只是替换那个词，而是连带把杯子的颜色从深棕调成了琥珀色。

这说明文字在它的系统里不是图层标注，而是画面语义的一部分。文字内容的改动会像语言中的主语替换一样，连锁驱动画面其他元素的合理变化。

GPT Image 2 与其他模型对比图

1.2

它不再把图像当图像看，而是把图像当语言看。

这听起来像玄学，但其实是个很具体的工程选择。要理解这件事，得先搞明白一个概念：Tokenizer。

Tokenizer 的作用是把一种东西“翻译”成另一种东西。GPT 处理文字前，会先把“你好”这个词切碎编号，变成一个数字 ID，比如 [11892]。这是文本 token 化。

图像能不能也这么干？当然能。你把一张图切成 16×16 的网格，每个格子编个号，也是一种 token 化。但这种做法太笨重——一张 1024×1024 的图会变成几千个 token，LLM 还没开始画就先被淹死了。

所以过去两年，各家大模型公司在拼一件事：怎么把一张图压成尽量少的 token，同时还不丢关键信息。

这事有多难呢？想象你是一个情报员，要把《蒙娜丽莎》用一封电报发出去。电报局规定你最多只能发 256 个字。你怎么办？你不能说“一个女人在笑”，因为对方画不出来；你也不能逐个像素描述，因为字数不够。你必须发明一套只有你和对方懂的密语——“52号微笑、3号背景、17号手势”——对方收到后能八九不离十地还原出来。

这就是 OpenAI 在 tokenizer 上干的事。从 CLIP 到 DALL·E 再到 GPT-4o，他们逐渐构建了一种能够在视觉与语言之间进行映射的语义表示体系。

这意味着：图像和文本被投影到了同一个对齐后的语义 embedding 空间。

现在在 LLM 眼里，“一只逆光的缅因猫”这行字，和一张逆光缅因猫的照片，是同一个语义空间里的两套坐标。它能像理解文字一样理解图像，也能像生成文字一样生成图像。

所以当你说“把第三行公司名改成团伙名”，它不是在修图软件里找那个图层，而是在改写一段描述这个画面的密文。改完后，解码器再把密文翻译回像素。

这就是为什么文字突然能写对了。因为对 LLM 来说，写一个W和写一个我，没有任何本质区别——都是它在密语系统里调整几个 token 的事。

1.3

既然 GPT Image 2 很可能把图像变成了语义密文，那这串密文怎么变回一张能看的图？

如果直接把 token 映射成像素，画质必然一塌糊涂，这是自回归模型的通病：它极度擅长决定画什么，却不太擅长画得好看——就像建筑系教授徒手画效果图，空间关系全对，笔触就是不及美院学生。

而扩散模型正好相反，纹理光影以假乱真，却经常不知道自己在画啥。因此，一个高度自洽的推测浮现：让两款模型打配合。

自回归负责定调：根据你的 prompt 生成那几百个语义 token，敲定画面里有什么、它们的位置关系、整体构图逻辑。这一步决定了“听得懂”，也保证了多轮编辑时对修改对象的记忆与一致性。

扩散负责润色：拿到这串语义 token 后，不再负责理解内容，只负责填充高保真像素，把既定框架变成光影自然的成图。这一步决定了“画得好”。

这不是理论空想。Google 发过一篇叫 Transfusion 的论文，Meta 搞过 Chameleon，走的都是类似路线。

当然，这一切都是基于公开信息和模型表现的推断。

OpenAI 有没有在用？2026 年 4 月的媒体会上，OpenAI 拒绝回答任何关于模型架构的问题。拒绝本身就是一个信号。

如果这个假设成立，那就解释了一切——文字写对是因为自回归天然懂离散符号；多轮编辑一致是因为自回归记住了那一串 token；画质没崩是因为扩散在最后一关做了精细渲染。

二、数据飞轮，GPT-4o 自己教自己生图

2.1

但上文那个能把图像压成几百个 token 的“密语系统”，到底是怎么训出来的？为什么不是别的模型，偏偏是GPT-4o？

答案藏在一件看起来最没有技术含量的事里：数据标注。

在 AI 圈，数据标注长期处于鄙视链底端。研究员聊架构可以聊一晚上，聊数据标注三句话就冷场。但 GPT Image 2 这次的表现，甚至表明OpenAI 可能已经不需要人工标注了。

而GPT-4o 本身就是全世界最强的图像理解模型之一。你给它一张图，它能写出一段比真人标注师还细腻的描述。所以OpenAI 可以把过去几年积累的几十亿张图片，重新“过一遍水”——用 GPT-4o 生成新的、高维度的标注。

但到这里，只解决了“描述”的问题，没解决“筛选”的问题。一个模型生成一百张图，并不是每一张都值得拿来当下一轮训练的教材。这里需要一套严格的“质检”机制——在机器学习里，这叫拒绝采样。

具体来说就是，GPT-4o 先根据一段 prompt 生成一批图像，然后根据美学偏好、指令匹配度、物理合理性等多条标准，逐张打分。批到符合条件的才“收下”，连同它为自己撰写的详细解析，一起塞进下一轮训练集。批到不及格的就直接扔掉。这保证飞轮里的数据不是在低水平循环，而是在有选择地自我提纯。

上一代模型给下一代模型当老师，下一代模型再给下下代当老师。每转一圈，对世界的理解就深一层。

大家的差距也在这个过程中越来越大。这也解释了为什么Midjourney在画质上能和OpenAI掰手腕，但在指令遵循和文字渲染上被拉开代差。

当然，听上去像个永动机骗局——自己教自己，那不得越教越傻？学术界确实有这个担忧，管它叫模型崩溃：模型反复吃自己吐出来的东西，会逐渐丢失分布的尾部信息，生成结果越来越单一、越来越平庸。

但OpenAI在文本侧已经证明：只要老师模型足够强，并且配合拒绝采样这样的严格筛选机制，这事不但不会崩，还能加速，形成数据飞轮。

2.2

这个飞轮里还有一个重要且难搞的角色——RLHF 在图像侧的质检员。

我们在文本侧已经习惯了 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）：给一段文字打分，判断它有用、有趣、符合人类偏好，这件事 GPT-4o 做得很好。

但在图像侧，难度骤升。因为质检员需要同时盯住三条线：美学偏好；指令遵循；安全过滤。

三条线的标准各不相同，甚至互相冲突。一道强光影可能很“好看”，但压暗了 prompt 里要求的某个细节，就会被“指令遵循”扣分。一层安全滤镜可能误伤正常的医学解剖图，又得回头调阈值。这种多维度权衡，在文本侧已经跑通，但在图像侧变得前所未有的复杂。

而 OpenAI 之所以能做成，很可能是因为他们把图像侧的问题全部拉回了自己最擅长的战场：语言理解。

美学偏好被转译成一段构图评语，指令遵循被转译成一组约束条件的核对清单，安全过滤被转译成一套规则判例。所有判断最终都落到了 LLM 的语义空间里。

可能这才是数据飞轮真正的底牌。不是数据多，而是从标注、筛选到打分，全链路都被统一到了一个理解框架里。拒绝采样负责海选淘汰，RLHF 负责精修调优，两者共享一套语义标准，飞轮才转得起来。

三、工程解法，兼顾推理速度和对话整合

3.1

到这里，我们聊的都是效果。接下来聊一个经常被刻意绕开的话题：推理速度。

先不说审美和一致性上的飞跃，且说一个看似矛盾的现象：生图质量跃升了一个代际，但速度并没有明显变慢。这本身就是一种工程奇迹——OpenAI 是怎么做到的？

自回归模型的运作方式是逐 token 生成——每个 token 都依赖上一个 token 的完成。扩散模型则不同，它可以在整张画布上并行去噪，一次处理所有像素。按理论推算，如果 GPT Image 2 确实用了自回归架构，它的推理延迟应该比纯扩散模型高出一个数量级。

但实际体验是：没有。

第一条线索：Token 压缩率可能远超预期。如果一张 1024×1024 的图只需要 256 个 token 就能完整描述，对 Transformer 来说就是一次呼吸的事。这意味着 OpenAI 不仅做到了语义对齐，更在压缩率上做到了极致，把高信息密度浓缩到几行字的程度。

第二条线索：推理架构的深度优化。混合架构中，自回归生成的是粗粒度的语义 token，决定“画什么”，不负责“画成什么样”。生成步骤大幅缩短，扩散模型只用在最后一小段“按图施工”，而不是从头噪到尾。

第三条线索：投机解码（Speculative Decoding）可能被用到了图像侧。用一个更小的“草稿模型”快速生成候选 token，再由大模型一次性验证，这套 LLM 推理加速经典技巧如果用在图像 token 上，速度可以成倍提升。OpenAI 在 GPT-4 时代已把这套玩熟，移植到图像侧没有原理障碍。

所以结论是：GPT Image 2 的快，不是因为扩散模型变快了，而是因为可能它把最慢的语义规划，从扩散模型手里抢了过来，交给了擅长快速推理的 LLM。

3.2

比速度更影响体验的，是与对话系统的整合。

在传统图像生成工具中，例如 Midjourney 或基于 Stable Diffusion 的工作流，用户通常通过编写 prompt 来控制输出结果。虽然这些工具已经支持诸如variations、inpainting和历史记录等功能，但整体流程仍然以“单次输入 → 单次输出”为主，用户需要通过多次尝试逐步逼近目标效果。

这种过程在实践中往往表现为反复试错：

用户根据结果调整 prompt，但模型对指令的理解程度并不完全透明，因此需要多轮迭代来校正偏差。

相比之下，集成在对话系统中的图像生成引入了连续上下文机制，改变了交互方式。

用户可以在多轮对话中逐步细化需求

模型能够利用对话历史理解“当前修改”对应的对象或属性

修改请求可以以更自然语言的形式表达，而不需要一次性写出完整 prompt

例如，在多轮交互中，用户可以先生成一个基础场景，再逐步提出局部修改（如颜色、位置、风格）。最后，模型基于上下文生成新的结果。

对话式交互还带来另一个优势：需求澄清能力clarification。将模糊的自然语言意图，逐步转化为更具体的生成条件，从而提高生成结果与用户预期之间的一致性。

结语

在 GPT Image 2 出现之前，AI 生图领域的讨论框架是这样的：

“扩散模型的缩放定律还能走多远？”

“DiT 架构和 UNet 架构谁更优？”

“Flow Matching 会不会取代 DDPM？”

“多模态对齐的损失函数怎么设计？”

这些问题都有价值，但它们共享一个隐含前提：图像生成是一个独立的、需要专门架构来解决的问题。

而GPT Image 2 给出的的回答是：不一定。

如果我们把镜头再拉远一点，GPT Image 2 的出现其实指向了一个更大的命题：世界模型。

让我们重新思考什么是生成，以及世界。

作者：樊雅婷

GPT image-2爆火后，设计师的天塌了吗？

青瓜传媒 — Mon, 27 Apr 2026 06:22:36 +0000

OpenAI新一代图像生成模型image-2，因为惊人的生图效果在全网爆火。很多人第一次发现，自己只要输入几句话，就能得到一张像广告、像海报的图片。

最先被推到问题中央的，是设计师。他们被问到的不是“这个工具好不好用”，而是“你们是不是要失业了”。

这一次，兴奋的不只是技术圈。公司运营、小店老板、自媒体作者、品牌市场，甚至只是想给朋友圈配一张图的普通用户，都开始在对话框里输入类似的要求：帮我根据这个东西生成一张海报，年轻一点，高级一点。几秒钟之后，一张图出来了。它有光影，有排版，有产品，也有接近商业视觉的完整感。它未必真的能直接用，却已经足够让人产生一种新鲜感：原来一张“像样的图”，可以来得这么快。

这种新鲜感很快变成了追问。

小红书上，有人发帖把问题问得很直接：“有没有设计行业的人出来说说？你们的天是不是要塌了？”配文里说，自己用image-2做了几张图，已经“完全看不出来真假”，设计似乎也“完全用不上了”。另一个帖子则问：“AI生图发展到image-2如此真实的程度是不是基本快到头了？”

评论区里，设计师、甲方、艺术生和普通用户各自给出答案。有人说，客户的需求这么多年还是“字大一点、间距宽一点、元素往右挪三公分”这类很基础的要求，但是AI做不到，依旧是设计师改到厌倦；也有人说，老板在乎的从来不是艺术，而是成本；也有人承认，AI 能出底图、给方向，但最后能不能过稿、能不能落地，仍然要看人的经验和判断。

image-2真正改变的，不只是出图速度，而是外界理解设计师工作的方式。当“出图”变得越来越容易，设计师需要重新解释：自己提供的，到底是不是一张图。

01、第一张图变便宜了，后面的活更难被看见

林夏，27岁，杭州，小型消费品公司平面设计师

林夏第一次明显感到image-2带来的压力，不是因为它生成了一张多么惊艳的图，而是老板把一张AI生成的促销图发给她时，后面跟了一句：“这个方向挺好，你再优化一下，很快吧？”

她在杭州一家小型消费品公司做平面设计。公司十几个人，她是唯一的设计。公众号封面、直播间促销图、电商主图、招商PPT、节日海报、老板临时要发朋友圈的配图，最后都会流到她这里。

过去，她最常听到的话是“就改一下”。字再大一点，间距再宽一点，促销感再强一点，但不要太廉价；要高级，但用户一眼能看懂；要像大牌，但不能太像；这个元素往右挪一点。image-2火起来后，这句话换了一种说法：AI都出了，你再修一下。

老板发来的那张图，第一眼确实像那么回事。商品放在画面中间，背景有光影，促销文案也摆了上去。如果只是发在工作群里看一眼，很多人会觉得已经能用。老板的判断也很自然：既然AI几秒钟就能做到这个程度，设计师再“专业化一下”，应该不会太久。

但林夏真正开始动手，问题才一层层冒出来。图里的产品包装和公司真实包装不一致；促销字看起来像字，但不能直接用；品牌色和过去几个月的活动视觉接不上；主标题和价格没有层级，用户第一眼不知道该看新品还是看优惠；背景虽然好看，却无法顺利延展，一旦改成小红书竖图，左右两边就空了。如果再做成直播间背景，又要重新适配。

更麻烦的是，这张图不是源文件。它没有图层，不能像PSD一样拆开改。林夏最后做的，不是简单修图，而是照着AI给出的“感觉”，重新搭了一版能发出去的图。

她不否认AI好用。以前找参考图、拼情绪板、试风格，可能要花半小时甚至更久。现在用image-2等软件，很快能拿到几个方向。它能让老板、运营和市场更快看到一个大致结果，沟通也更直观。

让她不舒服的是，AI把第一张图做得太完整，反而让后面的工作显得不值钱。在老板眼里AI已经完成了80%，她只是做剩下的20%。可林夏知道，真正费时间、真正决定这张图能不能发布的，往往就是这20%。

后来，老板再发来AI图，她不会立刻动手改。她会先把问题列出来：产品不对、文字不可用、尺寸要重做、品牌色偏了。她需要先证明，这不是“修一下”。

AI不会进工作群，也不会在复盘会上挨骂。图出了问题，最后被追问的还是人。

02、好看的包装图，不等于能生产的包装

周铭，32岁，广州，食品与日化包装设计师

周铭看到一张AI生成的包装图时，第一眼看的不是它漂不漂亮，而是它能不能做出来。

他在广州做包装设计，长期服务食品、饮料和日化客户。对外行来说，包装设计像是在给一只瓶子、一只盒子做一张好看的脸。但在周铭的工作里，包装首先是一件要被生产出来的东西。盒型、刀版、卖点区、条形码、配料表、生产信息、印刷色差、纸张材质、覆膜、烫金、UV、压纹、打样和货架陈列，每一步都会影响最后的结果。

image-2火起来后，有客户拿着一张AI生成的包装效果图来找他，说：“这个很好看，你照这个做一版就行。”

那张图确实好看。盒子正面有大面积留白，产品名很醒目，背景带着高级的渐变光，看起来像一款已经完成的新品包装。但周铭看了几分钟，就知道它只是“像包装”。

AI图里展示的是一个类似包装的立体效果，却没有真实的刀版逻辑，也没有展开面。要把它变成可以交给工厂的文件，周铭还要重新确定盒型尺寸、展开结构、正背侧面的信息区，以及具体印刷工艺。

有些问题一眼就能看出来。字体太细，印刷出来可能会糊；颜色太满，打样后可能发脏；正面卖点没有层级，消费者扫一眼抓不到重点；配料表、净含量、执行标准、生产信息和条形码没有留位置。对客户来说，那是一张漂亮的包装图；对周铭来说，那只是一个还没有进入现实的效果图。

包装设计和一张线上视觉图不一样。后者只要信息清楚、尺寸正确、风格不离谱，很多时候就算完成。包装却要落到真实商品上，被印刷、被裁切、被折叠、被摆上货架，也会被消费者拿在手里。它不仅要好看，还要合规、可生产、可运输、可陈列。

周铭并不排斥AI。他现在也会用image-2、NanoBanana、即梦等做前期方向。客户想看“轻奢感”“儿童化”“国潮”“环保感”“高端礼盒感”，过去要找大量参考图，现在可以很快生成几版视觉氛围，让客户先判断自己到底想要什么。

但他不会直接用AI图。在他看来，AI像一个很会画效果图的实习生，能把想象变得具体，却不知道生产线是什么，不知道印刷厂会怎样处理颜色，也不知道一排同类产品摆在货架上时，消费者的视线会先落在哪里。

周铭最常做的事，是把一张“像包装”的图拆回现实：这个颜色能不能印，这个字体能不能读，这个卖点放在哪里，刀版怎么走，成本能不能接受，打样之后会不会偏色。

AI改变的是包装设计的前半段。它能更快给出一个看起来成立的方向，却不能替周铭完成后半段，把一个漂亮想法，变成真正能生产、能上架、能被消费者买走的包装。

03、客户有了AI方向，报价就变难了

阿哲，29岁，成都，自由职业设计师

阿哲的变化更直接：价格变了。

他在成都做自由职业设计，接品牌小案子、电商视觉、社媒视觉和活动物料。过去客户找他，通常会说：“帮我做一套视觉。”现在，越来越多客户会先发来一张AI图：“我已经有方向了，你帮我修一下就行。”

这句话改变了整单生意的起点。

过去，阿哲从需求开始收费。理解品牌、找参考、做风格、排版、配色、改稿，这些都算在项目里。现在客户拿着AI图来，默认前面的工作已经完成。设计师只是最后那个“润色的人”。

但阿哲也发现，修AI图有时并不比从零做更简单。

客户发来的图没有图层，不能拆分修改；图里的文字要全部重排；产品边缘不干净，要重新抠；背景无法延展，做横版还行，改成竖版就崩；人物手部、阴影和空间透视有问题；客户还要不同平台、不同尺寸、不同场景的交付版本。最后他做的工作，接近重做一遍。

客户却不愿意按完整项目付费。客户看到的是一张已经成形的图，设计师看到的是一张不能落地的半成品。阿哲最难解释的地方就在这里：AI让客户以为设计已经完成了一大半，但实际交付要从文件、尺寸、内容和场景重新整理。

阿哲更愿意把AI当成草稿机，它能快速给出方向，减少前期沟通，让客户更快理解“冷色调”“促销感”“高级感”这些抽象词。但他不会把AI结果直接交付给客户。真正能收钱的东西，还是要回到软件里，重新处理成可编辑、可延展、可上线的文件。

后来再遇到拿AI图来“修一下”的客户，阿哲会先问清楚：要几个尺寸，能不能接受重做，源文件算不算交付，修改轮次怎么算。报价也不再按“修图”算，而是按“重新整理一套可用物料”算。

更矛盾的是，阿哲遇到的甲方并不总是鼓励使用AI。也有不少甲方和市场在抵触AI，一些项目合同及事前交流时直接要求不允许使用。原因并不复杂：版权归属不清，品牌不想和模板化视觉混在一起，也担心商业物料被质疑“AI味太重”。

这让阿哲的处境变得更尴尬。客户会拿AI图来压低价格，却又要求最后交付的东西不像AI，AI被用来降低成本，但风险仍然要人兜底。

04、还没学会判断，练手机会先少了

陈雨，23岁，杭州，电商公司助理设计师

陈雨最怕的不是AI比她强，而是自己还没来得及变强。

她视觉传达专业毕业，在一家电商公司做助理设计。她每天做的事情很基础：抠图、修图、改尺寸、套模板、做活动视觉、批量改详情页、整理素材、做店铺banner。

这些活不高级，甚至有些机械。但对陈雨来说，这是她进入设计行业的入口。

她通过改尺寸学会不同平台的视觉规则，通过套模板理解信息层级，通过修图理解产品质感，通过反复改活动图学会什么叫“让用户先看到价格”。那些看起来重复、低级的工作，正是新人积累判断的地方。

image-2火起来后，她发现自己最常做的基础活，正是AI最容易覆盖的部分。以前主管会让她根据一场618活动做十张banner，从里面挑两张继续改。现在，主管可能先用AI生成几个背景，再让她把商品、价格、卖点和按钮套进去。她不再从空白页面开始理解一个设计，而是从一个已经生成的结果开始修补。

资深设计师可以说，AI是工具。品牌设计师可以说，真正值钱的是判断。可陈雨还没有到能卖判断的阶段。她的问题是：判断本来就是从基础劳动里练出来的。如果基础劳动被压缩，新人靠什么成长？

一位进修过心理学和传播学的艺术生陈浩把这种变化说得更直白：低端设计需求被ai堵死是时间进程问题，目前看不到改变的迹象；中端被技术发展而淹没已然成趋势了，ai进步的速度比预想的要快很多，虽然目前还需要真实的人类来进行干预与维护；高端要理解真实的人类的认知和社会形态的变化所带来的视觉感受的变化，然后再设定品牌应该选择怎样的设计进行呈现。在选择的过程中可以ai快速验证，再训练ai进行修正，然后由人来完整的审核整套设计的内在逻辑、视觉感受与潜在传播能力。

陈雨能理解这句话，但它对新人并不友好。因为她还没有进入“理解品牌”“理解人群”的阶段，她还在通过抠图、排版、改尺寸和活动页，学习什么叫重点、留白和商业转化。

一个行业的成熟，不是从大师开始的，而是从大量低级任务开始的。设计师不是一毕业就会做品牌系统、视觉策略和商业转化。很多人都是从抠图、排版、改稿、套模板、做活动物料开始，在一次次被要求调整信息层级、产品位置、色彩关系的过程中，慢慢理解什么叫重点、留白、审美和商业落地。

AI最先替代的，恰恰是这些训练场。陈雨知道自己必须学AI，也知道不能只会基础软件。但她仍然感到一种提前到来的压力：她还没学会判断，练手机会先少了。

05、当风格变便宜，判断就更贵了

许行，35岁，北京，品牌设计师与美术指导

许行是最早使用AI的人之一。

他在北京做品牌设计和美术指导，服务过消费品牌、展览项目和内容平台。image-2出来后，他很快把它放进自己的工作流：做情绪板、找风格参考、生成广告分镜、模拟产品场景、探索KV主视觉、辅助提案。

他不把AI当敌人。相反，他觉得这是一个反应很快的助理。过去前期提案要找大量参考图，现在可以快速生成十几个方向。

他会把AI出来的方向分成三类：可以做色彩参考的，可以放进情绪板里的，看起来惊艳但必须删掉的。太像模板、太像广告、太光滑的东西，会被他先筛掉。真正进入提案时，他还要把留下来的局部构图、色彩关系和氛围，重新整理成品牌自己的视觉语言。

在他看来，一张图好看，不代表品牌成立。

一个品牌不能今天像瑞幸，明天像苹果，后天像蕉下。品牌设计不是每次生成一张漂亮图，而是在不同渠道、不同活动、不同季节里，让用户持续认出你。这背后是字体规范、色彩系统、图形语言、品牌一致性、跨渠道延展、商业转化和长期资产。它们不如一张AI图直观，却决定一个品牌能不能真正被记住。

许行最近也注意到，很多AI图已经有了自己的“气味”。有人在小红书上问，为什么ChatGPT 生成的图片里总有一种模模糊糊的点状噪点，主体上也有说不清的痕迹。另一个设计账号回复说，从设计角度看，噪点本身也是一种风格。

许行觉得，这正是AI图有意思的地方。它不只是会生成风格，也开始形成自己的风格。过度完整、过度光滑、过度像广告，第一眼很惊艳，看多了反而会变成一种模板感。

当所有人都能生成一张“很像真的”图片，“像真的”本身就不再稀缺。真正稀缺的，可能变成某种有生活痕迹、有情绪判断、不那么标准化的设计。

许行认为，AI让“风格”变得便宜了。过去设计师要花很多时间探索风格，现在AI能很快给出各种视觉样式。但风格越便宜，选择什么风格、保留什么风格、什么时候不该追求风格，就越重要。

AI可以出图，但它不知道为什么这个品牌不能这样表达；AI可以生成“高级感”，但它不知道这个产品到底该不该高级；AI可以模仿某种流行趋势，但它不知道这个趋势对品牌长期资产有没有伤害。

06、老板不一定少要设计，但想少等一点、少花一点

王老板，40岁，郑州，本地消费品牌主理人

王老板不是设计师，也不打算每天自己做图。

他在郑州经营一家本地消费品牌，团队二十多人。公司常年需要促销物料、门店物料、社群转发图、直播间背景、PPT和短视频封面。过去，这些需求要么找外包，要么让市场同事整理需求，再交给兼职设计或合作设计师。

对他来说，最麻烦的不是设计不好看，而是慢：一版节日物料要沟通两三天，一版门店物料要反复改，外包接单也要排期。有些东西在他看来并不复杂，只是上新品、搞促销、发个活动通知。他不一定追求顶级审美，只想要快、便宜、能发、能卖。

image-2火起来后，他第一次发现，自己不用真正会设计，也能先拿到一个“方向”。

他不是要亲自把图做完，而是把AI生成的图当成沟通草稿。以前他只能说“要年轻一点”“要高级一点”“促销感强一点”，这些词到设计师那里经常要来回理解；现在他可以让市场同事先用AI试几版，再把其中一版发给设计师：“就照这个感觉走。”

过去是设计师先理解需求、找参考、出方案；现在是老板或市场先拿AI生成一个大概方向，再让设计师把它变成能上线的视觉。

王老板不会用“艺术”来评价这些图。他更关心发出去有没有人点，投放后有没有转化，门店物料能不能让用户看懂，社群图能不能带来咨询。对他来说，AI不是审美革命，而是一种降低试错成本的工具。

如果AI出来的东西落地不行、没有效果，那再便宜也没意义；如果它能解决临时物料和初稿方向，他就会继续用。

那些只发在社群里的促销图、临时活动通知、节日祝福物料，他会觉得AI已经够用了；但真正要印刷、投放、上门店、代表品牌的东西，他还是会找人把关。

他的矛盾也在这里：AI能降低试错成本，但不能替他承担风险。产品图不对、字体侵权、品牌跑偏、投放效果差，最后还是要有人负责。

所以王老板不是不需要设计了，而是开始把设计分层：有些图可以便宜解决，有些图必须交给专业的人。

结语：设计师的天没有塌

image-2让“会出图”不再稀缺，也让设计师重新证明自己的价值

林夏还在把老板发来的AI图拆成一张修改清单；周铭继续把漂亮包装图还原成刀版、材质和打样问题；阿哲开始在报价前先问清楚尺寸、源文件和修改轮次；陈雨还在基础活里寻找练手机会；许行继续用AI出方向，但不把最后判断交出；王老板也没有真的放弃设计师，他只是更细地计算，哪些图可以便宜解决，哪些东西必须有人负责。

所以，设计师的天塌了吗？

没有。至少现在没有。

真正塌下来的，是设计行业里那层最薄的地板：基础执行、低价商单、重复物料，以及外界对设计劳动本就不多的耐心。

image-2没有让设计失去价值，它只是让“出图”这件事从专业能力变成了公共能力。

设计师以后要证明的，可能不再是自己比AI更会画，而是自己更懂为什么这张图不能这么用：为什么它不适合这个品牌，为什么用户第一眼看不到重点，为什么一张漂亮图还要变成可以执行、可以延展、可以负责的商业结果。

当所有人都能生成一张图，设计师要重新证明的，不是图片，而是判断、经验和责任。

作者：高恒说

来源：高恒说

实测 GPT-Image-2：6 个能落地的提效场景

青瓜传媒 — Mon, 27 Apr 2026 01:10:31 +0000

昨天，我一直在被 GPT-Image-2 生成的图片刷屏。

我从前晚就开始体验，实测下来，这个生图模型太强了，肉眼可见的进化（原谅我读书少词穷）：

审美变好了。不只是”画得真实”，是真的”画得好看”。构图、配色、光影，明显上了一个台阶。
中文终于不乱码了。以前 AI 生图最大的槽点就是中文，现在几百个汉字排在一张图里，字号间距对齐几乎零错误。
会”思考”了。它能联网搜索信息、推理图片结构，一次最多生成 8 张风格一致的图。
使用门槛更低。不需要写复杂的结构化 Prompt，一两句话就能出高质量的图。

作为一个 AI 产品经理，我立马想：这个能力怎么用到实际工作提效？

我测了很多场景，挑出 6 个能真正落地的，给你们展示，产品、设计、运营工作的提效用法。

1、生成产品架构图

产品经理做方案，经常要画架构图。

以前我用飞书从零开始画，至少半天。现在呢？一句话，直接让它生成一个智能体平台的产品架构。

提示词：

生成一个智能体平台的产品架构图

模块划分、层级关系、文字标注都挺清楚，逻辑也合理。

当然，这类偏逻辑的图表，以前的模型也能凑合画。

我真正好奇的是，它能不能画出真正能用的产品 UI？

2、设计 App UI

这才是我最想测的场景。

产品经理出方案，经常需要一张高保真的界面图来跟团队对齐方向。以前要么自己用 Figma 画半天，要么排期等设计师，一来一回好几天。

之前谷歌的 Nano Banana Pro 我也测过，生 UI 界面的效果嘛……文字、图标还是会有瑕疵，只能看个大概的风格方向。

但这次 GPT-Image-2 的中文和细节处理都强了这么多，是不是意味着出来的界面可以直接用了？

带着这个问题，我先让它生成了一组 AI 健身运动 App 的界面：

提示词：

生成一组 AI 健身运动 App 的界面设计，共4个屏幕横向排列。
第一个是首页运动数据仪表盘，深色背景，中央有大圆环显示今日卡路里消耗，周围有步数、心率、运动时长三个小数据卡片，下方是本周运动趋势折线图。
第二个是课程推荐页，瀑布流展示健身课程封面卡片，每张卡片有教练头像、课程名、时长和难度标签。
第三个是运动记录详情页，顶部是跑步路线地图，下方是配速、距离、海拔等数据。
第四个是社区动态页，展示用户运动打卡的图文动态流。深色主题配荧光绿点缀，所有文字使用中文

再来一个 AI 旅行规划 App：

四个界面一次生成，设计感、色彩、排版都在线。最关键的是——中文几乎零错误。跟之前 Nano Banana Pro 生的 UI 比，完全不是一个级别。

拿去跟设计师对齐方向，完全够用了。

看到效果这么完整，我又冒出一个想法：这些 UI 元素看起来这么清晰，能不能直接提取出来当切图用？

同样只用一句话。

提示词：

请提取这个 App 的所有 UI 组件图，平铺在图片上，方便我切图使用

按钮、卡片、图标、导航栏、标签……整齐平铺出来，稍微调整下，这个 App 的 UI 设计规范就能用了。

到这里我已经够兴奋了，但还有更强的。

3、用 Codex 设计 UI、复现前端页面

我发现 Codex 里也上线了这个模型。

这意味着什么？可以直接生成 UI 图，再利用代码能力把设计图复原成前端页面。

这个想法太诱人了，我马上试了一下。

一句话出来的 UI 界面图已经很好了：

再用一句话，直接根据 UI 开发前端界面：

效果比我想象的还好。注意，下面截图已经是用代码实现的 HTML 页面，是可交互的：

从描述需求，到生成设计图，到直接变成可运行的前端页面——整个过程我没画一笔原型，也没写一行代码。

以前从一个想法到可交互的原型，至少一周。现在只用两句话，等了不到 10 分钟。

这不只是效率提升，是工作流在变。

4、一张商品图变电商详情页

测完产品 UI，我又试了几个不同方向的场景。

电商详情页是刚需场景，每个生图模型出来，我都会测测效果如何。

于是，我上传了一张耳机的商品图（连这个耳机也是 AI 生成的），然后一句话让它出一张电商详情页：

产品卖点、使用场景、参数信息、排版配色，一次就全出来了。

仔细看肯定还有需要调整的地方。但对电商运营来说，哪怕出来的图需要再修改，比起从零开始做，工作量也已经降低了非常多。

5、攻略长图

五一快到了，随手试了个生活化的场景：

提示词：生成一张五一假期广州周边游的攻略图

景点、路线、美食推荐全安排上了，排版清晰，中文准确。发朋友圈或小红书，直接能用。这运营和设计得省多少事儿。

6、产品宣传海报

最后，用一张产品海报总结下 GPT-Image-2 的产品能力。

你看，品牌调性、视觉层级、文字排版，都拿捏得很到位。

写在最后

跑完这 6 个场景，我最大的感受不是”AI 又变强了”，这已经是意料之中的事。

我真正想聊的是：工具越来越强，对人的要求反而越来越高。

你有没有注意到，这篇文章里所有案例的提示词都非常简单？

一两句话的事。这说明 AI 对需求的理解能力越来越强了，你不需要写很专业复杂、很长篇的 Prompt，它就能 get 到你要什么。

但问题来了，你自己得先知道你要什么。

做产品有个基本逻辑：需求 → 方案 → 执行 → 验证。

AI 正在把「方案→执行」这段路压缩到极致。执行层的门槛，几乎被抹平了。

但「需求从哪来」和「结果好不好」，这两头永远需要人来判断。

AI 给了你十张图，哪张能用？哪个更好？为什么？

这些问题，AI回答不了。能回答的，是你对用户的理解，对业务的洞察，对”什么是好的”的判断力。

有人会担心，产品经理、设计师会被 AI 替代。

我认为，该担心的不是某个岗位，而是那些只做”执行”、不做”思考”的人。

AI 降低的是执行门槛，拉高的是决策门槛。

工具会越来越强，但方向永远由人把控。

作者：AI产品经理四月

来源：AI产品经理四月

GPT Image 2 一脚踢翻即梦、可灵、通义万相

青瓜传媒 — Sat, 25 Apr 2026 00:05:59 +0000

2026 年 4 月 21 日，OpenAI 正式发布 GPT Image 2。发布当天深夜，中文互联网上一张图开始疯转。

那是一张 Mariah Carey 90 年代音乐生涯的中文信息长图。左边是她的侧面照，配文「她的高音征服了世界，她的音乐定义了一个时代」；右边是一条从 1990 到 1999 的年份时间线，每一年都有一段中文描述和代表单曲，旁边配着那一年的专辑封面——《Mariah Carey》《Emotions》《Music Box》《Daydream》《Butterfly》《#1’s》，一直到 1999 年的「传奇延续」。

信息量极大。而且——这张图是 GPT Image 2 一条 prompt 直出的。

一位资深设计师在腾讯新闻的测评里写：「这种大量信息 + 美感 + 准确性的三角组合，说实话，以前只有比较不错的视觉设计师能做到。」

但这张图之所以让中文 AI 圈坐不住，不是因为它代表了什么设计师失业，而是因为：它出自一个美国模型。

过去两年，中文市场所有的国产图像模型——快手的可灵 Kolors、字节的即梦 Seedream、阿里的通义万相 Qwen-Image——都在同一个叙事里活着：我们也许在某些维度不如 Midjourney、Nano Banana、GPT Image 1，但我们懂中文。中文字体、中文语义、中文审美、中文电商场景——这是一道 OpenAI 和 Google 进不来的护城河。

现在，护城河塌了半边。

一、回忆一下那道曾经很厚的”中文墙”

要理解 GPT Image 2 这次意味着什么，得先回忆一下这道护城河是怎么建起来的。

2024 年 7 月，快手在世界人工智能大会上开源了可图 Kolors。这是第一个真正意义上”原生支持中文文字生成”的文生图模型。快手团队为它专门构建了一个包含五万余个常用汉字的数据集，使它能稳定写出黑体、手写、书法等多种字体的中文字符。更关键的是，Kolors 接入的是 ChatGLM3 作为文本编码器，不像 Stable Diffusion 那样用 CLIP——这意味着它能处理 256 字符级别的复杂中文提示词，甚至反应效果比英文还好。

这是一个定义性时刻。从那一刻起，中文 AI 社区开始形成一种共识：国外模型再强，在中文这件事上玩不过国产。DALL-E 3 的中文是乱码，Midjourney 的中文像鬼画符，那时候的 GPT-4o 生图甚至不怎么敢写中文。

2025 年 9 月，字节发布 Seedream 4.0，把这道墙砌得更高。字节团队在 Artificial Analysis 国际评测上一举登顶文生图和图像编辑双榜，综合 Elo 评分超越 Google 当时的王牌 Nano Banana（Gemini 2.5 Flash Image）。中文文字渲染、亚洲人像一致性、4K 原生输出——这些都是字节打磨过的硬指标。

Seedream 4.0 最漂亮的一点是：它的中文渲染不只是”能出字”，而是能做整套的场景融合。商铺牌匾、海报标题、书法挂轴、手绘字体——它都能稳稳地压在画面里。知乎上有个高赞回答一句话定性：”seedream4.0 跟 NanoBanana 打个平手，但中文字生成无敌，这块相比外国模型几乎就是遥遥领先的。”

2025 年底到 2026 年初，阿里依次推出 Wan 2.6 和 Qwen-Image 2.0。阿里走的是另一条路：把 Qwen 大语言模型的中文理解能力，深度嫁接到图像生成模型里。Qwen-Image 2.0 支持 1k token 级别的超长中文提示词——官方给出的样例，是一段近千字的中文场景描述：冬日北京的街景、青灰瓦顶、朱红色外墙、田英章硬笔字、卡皮巴拉玩偶、雪人手写黑板——这种把细节堆到极致的中文 prompt，只有阿里和字节的模型吃得下。

这三家一起构成了中文图像生成的”铁三角”：快手开源、字节闭源、阿里云化。护城河看起来又高又厚。直到这个月。

二、GPT Image 2 是怎么把墙推倒的

OpenAI 这次发布 GPT Image 2，核心卖点看起来跟 Nano Banana 2 没有本质区别：文字渲染、原生 4K、高保真、多语言。但如果你只看这个列表，你会错过最关键的信号。

发布时 OpenAI 明确列出支持”加强”的五种语言：日文、韩文、中文、印地语、孟加拉语——这不是英文扩展到欧洲小语种的常规操作，这是一个正面扑向亚洲市场的清单。

实测结果比声明更硬。LM Arena 上，GPT Image 2 首发 Elo 评分：文生图 1512、单图编辑 1513、多图编辑 1464。第二名——Nano Banana 2——只有 1360。242 分的鸿沟。在这种榜单上，顶级模型通常只差几分，OpenAI 这次是直接抽刀斩断赛道。

但数字没讲清楚最刺痛的地方。刺痛的地方在这里——

场景一：中文电商详情页。过去电商行业有个固定工作流：拍产品照 → 修图 → 做排版 → 写文案 → 分区详情 → 场景图。一套做下来，设计师和运营要来回折腾一两天。现在，知乎用户实测 GPT Image 2：丢一张产品照 + 两句话，直出一张”靠谱修图师级别”的白底主图；再加一句”给我做一张详情页海报”，它真给出了一张像模像样的详情图，中文促销文案、产品卖点、分区布局都有。

这不是”能出中文”的水平——这是”能接住中文电商设计工作流”的水平。

场景二：中文招聘海报。过去不管是 DALL-E 还是 Seedream 还是 Nano Banana 2，你让它做一张文字密集的中文招聘海报（一堆职位 + 要求 + 联系方式），文字部分都会崩坏。GPT Image 2 是第一个能把这类”文字信息密度大于视觉权重”的场景做稳的外国模型。

场景三：中文信息长图 / 明星履历页。就是文章开头那张 Mariah Carey 时间线——中文、时间线、专辑封面、段落描述、整体氛围都要兼顾。这种图过去只有专业平面设计师能做。

场景四：招牌和街景文字。虎嗅的一篇分析写得很到位——让 GPT Image 2 成为最强生产力工具的那组能力（精确的文字渲染、可信的 UI 布局、真实世界的视觉词汇），恰好也是制造虚假信息的完美工具集。假 Bloomberg 终端、假 Slack 对话、假 UI 截图，”都是在已知视觉词汇之上叠加的密集文本，这正是 OpenAI 所优化的工作负载”。换到中文场景——假饿了么界面、假微信对话、假微博截图、假支付宝账单——同一套工作负载，同样适用。

这三个场景，过去是国产图像模型几乎唯一能稳定碾压国外模型的地方。现在，它们都被打穿了。

三、为什么这次的打击是”质变”

你可能会说：中文文字渲染不就是多训练点中文数据嘛？以前国产模型靠这个吃饭，现在 OpenAI 补上了数据，不就追平了？

没那么简单。这次的底层变化比”补数据”深得多。

第一，这不是简单”补数据”的版本迭代。 发布前业界普遍猜测 GPT Image 2 把架构从两阶段推理改成了单次推理，速度会提升好几倍。OpenAI 官方没有正面确认架构细节，但公开的特性足够说明问题——GPT Image 2 是 OpenAI 第一个内建推理能力（Thinking Mode）的图像模型。它可以在生图前先搜索网页、读取用户上传的文件（PDF、截图、品牌规范）、推演版面结构、从一个 prompt 生成最多 8 张风格一致的图，生成完还会自我检查输出。

这个变化的含义是：图像生成不再是”先写一段 prompt，扔给模型出图”的单次调用，而是一个带推理链的 agent 任务。换到中文场景里，它意味着：你不用再硬塞关键词告诉它”这是中式招牌”、”那是中国风排版”——它自己会先想一遍，再画。这就解释了为什么它能稳稳地把中文字压在曲面上、贴在反光材质里、塞进密集排版中。国产模型之所以在这些场景下容易崩，是因为它们还在”一条 prompt 一张图”的逻辑里，没有那个”先想一遍”的推理步骤。

第二，审美这关，国产模型比预想更脆弱。 过去我们习惯说国产模型”懂中文场景”。但中文圈的一个公开秘密是：国产模型输出的图，无论字节、阿里还是快手，或多或少带一种被用户称为”AI 感”或”土味”的东西——过曝的光影、过饱和的颜色、不自然的塑料质感、构图的俗气。知乎上有设计师总结：”以前 AI 画图最容易让专业设计师安心的一件事就是——它能画，但它不懂审美。现在这层安全感，也开始裂了。”

GPT Image 2 这次最大的意外之喜，恰恰是审美。知乎高赞评测里有几个关键词反复出现：”构图的节奏”、”色彩的克制”、”信息的主次”、”氛围感”、”那一点点’设计师会不会这么做’的味道”——这些不是中文数据能补出来的，这是视觉品味的训练。

第三，世界知识 + 文字 + 场景的三合一。 过去国产模型在中文场景的长板，是孤立的——你可以让 Seedream 写好中文，但让它理解”苹果那种冷峻高级质感”或”电商平台高饱和度带促销文案的网感图”，它得靠用户提示词里硬塞一堆关键词。GPT Image 2 天生带着”世界知识”，知道”张雪机车”该怎么画、知道”iPhone 16 Pro Max 高端商业广告”长什么样、知道”佳琦直播间”会出现在什么位置——这些东西，是在大量互联网数据里自然习得的。

爱范儿的评测里有个细节：让 GPT Image 2 生成”一个亚洲男性在商场刷手机”的纪实摄影风格图，它不只是画出了人，还在画面角落里自动塞进了一个”李佳琦直播间”的模糊招牌。这个细节比任何中文文字渲染都更说明问题——它不是”被教会了中文”，它是真的”看懂了中国场景”。

四、逐一看看三家国产模型的处境

即梦 / Seedream（字节）——正面迎战的那个

字节目前是国产图像模型里最靠前的选手，Seedream 4.0 的图像编辑综合 Elo 还排得上全球前列。它的优势仍然很硬：亚洲人像一致性全球最好、中文多字体多排版、多图融合、局部精准编辑、4K 原生、中国电商/短剧/漫剧工作流全打通。

但 Seedream 也有几个真实的问题：

产品端清晰度卡在 2K。字节 Seedream 4.0 技术文档里写的是支持原生 4K，但在即梦 App 上用户实测只能出 2K。这意味着商用场景下，设计师拿去做印刷物料时还是得放大。
审核严。 有独立开发者反映：”整体审核显著比 banana 要严格，很多能在 banana 跑的案例在即梦都会提示’你输入的文字不符合平台规则’。” 这个问题是所有国产 AI 产品都有的，但对图像生成杀伤力特别大——AI 生图最常用的场景之一就是”生成一张名人代言的调侃海报”，这类 case 在国产平台基本做不了。
Agent 模式的稳定性问题。 字节从 Seedream 4.0 开始主推 Agent 模式（用自然语言一条 prompt 让 AI 自己分解任务），但用户反馈失败率偏高、人物一致性不如 Nano Banana。
迭代节奏跟不上。 Seedream 4.0 之后，字节陆续推出了 4.1 和 4.5 试图拉近差距。但 Google Nano Banana Pro 一出来就把阈值顶高，用户对 4.1/4.5 的反馈以”模糊、提升不明显、脸部扭曲”为主。字节在一个月内连发两个小版本却没真正追上，暴露了更深层的问题——不是不努力，是模型能力的追赶速度跟不上通用模型的迭代节奏。

字节真正的底牌不在模型本身，而在分发：豆包、即梦、剪映、抖音这套生态把用户入口卡得死死的。你可能永远用不上 GPT Image 2 的 API，但你打开抖音刷视频的时候，字节的 AI 已经在你旁边了。

可灵 / Kolors（快手）——开源流派，重心已经转移

可灵的故事是三家里最微妙的。2024 年快手开源 Kolors 是”中文 AI 生图破冰者”的高光时刻。但 Kolors 此后的迭代节奏明显慢了下来，重心逐渐偏向可灵视频。

原因很现实：快手的业务护城河在短视频，不在图像。在国产大厂里，可灵的视频生成模型是目前国内 SOTA 级别，能跟 Sora 2、Veo 4 扳手腕。相比之下，守住图像生成的前沿要花的钱和算力，边际收益远不如 All in 视频。

所以可灵的策略大概率会是：图像放手，视频死守。GPT Image 2 的冲击对快手来说反而没那么疼——它不是快手的主战场。

通义万相 / Qwen-Image（阿里）——B 端生态里的长期玩家

阿里这边打法很不一样。通义万相 + Qwen-Image 是”绑在 Qwen 大模型生态里”的图像能力，主攻 B 端场景：淘宝电商、阿里妈妈广告、飞猪旅游图、阿里云企业客户。

Qwen-Image 2.0 的一个招牌能力是处理超长的中文 prompt——官方给出的样例 prompt 是一段 800 字的中文场景描述，包含材质、构图、文字、人物、环境、天气、光影。这种 prompt 解析能力确实是 GPT Image 2 短期内赶不上的，因为 Qwen 本身就是中文 LLM 的强者。

但阿里的问题也明显：审美上限还是不如 GPT Image 2。阿里的图像模型长期有一种”官方感”——干净、规整、工整，但少了设计师的那点灵气。在 C 端”让用户感到惊艳”的战场上，这是硬伤。

阿里的优势在 B 端：深埋在企业工作流里，淘宝商家用它做主图、跨境卖家用它做多语言素材、阿里云企业客户用 API 批量生图。这种”看不见但用得到处都是”的路径，GPT Image 2 短期内也打不进来——因为 OpenAI 在中国没有合规的 B 端入口。

五、为什么”中文护城河”必然会失守

一个更冷静的判断：中文作为国产大模型的护城河，从来不是技术壁垒，而是数据和注意力壁垒。当一家公司愿意花钱补中文数据、愿意专门投入算力优化东亚语言——壁垒就会消失。OpenAI 这次明确把中日韩印孟五个亚洲语言列为发力方向，说明它已经把亚洲市场正式纳入战略视野。

这背后有一个更大的历史规律。

回看互联网的上一轮”本地化护城河”故事：搜索引擎时代，百度靠中文理解、中文网页索引、中文输入法输入方式打败了 Google.cn，看起来是中文生态无可撼动。但后来的移动互联网证明了，护城河不是”中文”，是”App 分发入口 + 支付系统 + 内容生态”。电商时代，淘宝靠中国零售逻辑和物流体系打败了 eBay，看起来不可复制，但拼多多仍然从社交电商切进来重写了规则。

本地化从来不是一条可以长期依赖的护城河。

AI 图像生成这一轮也是一样。中文文字渲染、中文语义理解、亚洲人像审美——这些东西一旦 OpenAI/Google 决定要做，就能做到。而真正持久的护城河从来不是”模型能力本身”，而是：

分发入口（你能不能让用户顺手用到）
工作流集成（你能不能嵌入到用户每天打开的软件里）
合规优势（你能不能在监管框架下稳定交付）
生态互锁（你的模型能不能跟下游工具链产生网络效应）

这些才是国产模型真正应该守的东西。

六、国产模型的出路：不在”卷中文”，在”卷嵌入”

我的判断是，国产模型接下来不应该再把”中文优势”当成战略故事讲。这个故事可以讲给用户做宣发，但不能作为公司战略的核心。真正要打的三件事：

第一，把模型嵌入到分发入口里。 字节已经做到了一部分——豆包 + 即梦 + 剪映 + 抖音。阿里也在做——淘宝商家工具 + 阿里妈妈广告 + 钉钉文档。这是 OpenAI 在中国短期内打不进来的地方。

第二，在特定垂直场景上做深。 电商、短视频、社交营销、本地生活、游戏——这些场景对中文理解、合规要求、工作流对接的要求都很高，也是 GPT Image 2 的通用 API 一时半会儿接不上的。国产模型应该把这些场景做成”谁都拆不开的工作流”，而不是”一个能被 API 调用替换的模型接口”。

第三，承认”模型能力正在商品化”这个大趋势。 这正是我之前几篇文章里反复说的论点：当模型成本开始坍缩，真正的竞争优势会从原始模型能力，转移到上下文嵌入、工作流集成和信任。GPT Image 2 这次等于是给国产模型上了一课——你在模型能力这个维度上再卷十年，也卷不过 OpenAI 的迭代速度，但你可以在”怎么把模型塞进商家的日常”这件事上，建立 OpenAI 永远也复制不了的护城河。

七、最后说几句

2024 年快手开源 Kolors 的时候，整个中文 AI 圈有一种很难得的乐观情绪：我们终于有一个”中文原生”的图像模型了。两年之后回头看，那种乐观现在显得有点天真。

不是 Kolors、Seedream、Qwen-Image 不努力——它们在各自的时间窗口里都做得很好。而是 AI 模型竞争的底层逻辑，注定了任何一个看起来专属于”本地化”的优势，都会在通用模型的下一次迭代里被抹平。

GPT Image 2 的发布，不是让国产模型”完蛋了”。它是一个节点事件，宣告了一个叙事的终结——”我们因为懂中文，所以可以活得很好”这个故事，讲不下去了。

国产模型并没有失去未来。它们只是失去了一种可以让自己偷懒的优越感。从今天起，大家都要在”谁能在真实的生产场景里活下去”这件事上，重新比一次。

中文，曾经是国产大模型最温暖的护身符。现在它不是没用，只是不再是独家的。

而下一局怎么赢，跟”中文”已经没有关系了。

作者：秋叶的枫

GPT image-2与 nano banana-2生图实测对比

青瓜传媒 — Fri, 24 Apr 2026 00:45:04 +0000

21号凌晨，OpenAI 发了个大招。GPT image 2 正式上线。

Sam Altman 在直播里说这个飞跃就像从 GPT-3 一步跳到了 GPT-5。

曾几何时，AI生成复杂文本总是不可避免出现乱码，中文更是重灾区。现在，这个困扰被GPT image-2给解决了。

你能想象这是AI生成的图吗？

上图为一次生成

今年 2 月，Google 放出了 Nano Banana 2，我觉得惊为天人。之后两个月，它一直霸占 Arena.ai 的 Image Arena 排行榜第一名。直到4月21日…

Arena.ai排行榜截图

GPT Image 2总分1512分，以创纪录的 242 分优势领先第二名 Nano Banana 2。这是 Image Arena 历史上最大的领先差距。

这次更新，给GPT会员又多了一个续费的理由。

实测开始

测试一：攻略长图 / 信息图

1、花卉种类长图

画一张竖版「新手养花完全指南」信息图，按四季花卉、浇水频率、光照需求分类，配手绘花卉插画，淡绿底色小清新风格。

NanoBanana 2

GPTImage 2

2、二十四节气图

画一张「二十四节气穿搭指南」长图，横向时间轴贯穿整图，每个节气一个小人偶展示当日穿搭，标注气温范围、材质建议、配饰点睛。浅米色底配二十四种渐变色。

Nano Banana 2

GPT Image 2

测试二：海报/杂志封面

1、国风海报生成

画一张《VOGUE》风格时尚封面，主角穿国风礼服，背景水墨山水，经典刊名字体，烫金标题，右侧期号与条形码齐全。

Nano Banana 2

GPT Image 2

2、杂志封面生成

画一张《地理中国》封面，航拍中国丹霞地貌，大字标题「大地的调色盘」，左下角 logo，写实摄影质感。

Nano Banana 2

GPT Image 2

测试三：发布海报

画一张李宁国潮海报，红金配色，主角穿国风运动服，大字「国潮正当燃」，街头潮流风格。

Nano Banana 2

GPT Image 2

测试四：实物产品拆解图

给尼康Z8相机设计一张酷炫详细的产品分解图

Nano Banana 2

GPT Image 2

测试五：游戏地图

画一张仙侠世界手绘地图，宣纸质感，标注仙山、秘境、门派、渡口，配古风小插画，四角祥云纹样。

Nano Banana 2

GPT Image 2

测试六：银河科普图

银河星云科普长图，梦幻星云插画、宇宙冷知识，浪漫科幻感。

Nano Banana 2

GPT Image 2

测试七：暗黑奇幻世界观

架空奇幻世界设定长图，种族划分、规则介绍、势力分布，手绘插画 + 文字注解，暗黑幻想风。

Nano Banana 2

GPT Image 2

测试八：体检报告生成

画一张「成人体检报告解读」长图，分血常规、肝肾功能、血脂血糖模块，数据对照表 + 通俗解读，莫兰迪绿，医院报告版式。

Nano Banana 2

GPT Image 2

结论

通过8轮10组图片测试，GPT image-2整体输出效果在图文一致性、风格适配度、图像质量、艺术性均大幅度领先nano banana 。

这不是小升级，这是一次设计和审美的革命，以前我们要生成一张能用的图片需要一大段提示词来约束模型，反复打磨微调图片，最后抽了半天卡，发现没一张符合要求的。但是现在，只需要输入一句话，就可以做到工业级别的图像生成，媲美资深设计师。

ps：以上图片均为一次生成。

这是一次真正的设计平权。

古法设计或许有一天会成为非遗。

作者：shadow