即梦 – 青瓜传媒

即梦、可灵、HappyHorse三强测评，谁翻车了？

青瓜传媒 — Thu, 30 Apr 2026 00:45:00 +0000

AI视频模型进入“三国杀”。

随着HappyHorse的正式公测，中国视频生成模型进入“三国杀”时代。

在过去半年里，字节的即梦（Seedance 2.0）、快手的可灵3.0、阿里的HappyHorse先后登顶 Artificial Analysis视频模型榜单第一。

「AIX财经」用六段统一的提示词对三款模型进行了横向测试——四组古典艺术题材、两组现代落地题材。这六组覆盖了AI视频生成关键的能力维度：动作叙事、静态情绪、多人调度、文化符号还原、现代写实质感、商业可用性等。

三家模型在叙事密度、镜头语言、文化辨识度上，给出了三种完全不同的解法，也在不同的环节翻车，如中文文字乱码、多人面孔的“克隆人”现象，以及对特定文化符号的还原失误等。

以下是完整的测试报告。

01 测试一：赵子龙单骑救幼主

提示词：

0-3秒：远景。黄昏战场，烟尘弥漫，残阳如血。一员白袍银甲的年轻将军单骑自远处疾驰而来，白马奔腾，红色披风在身后猎猎飞扬。他怀中紧抱一个襁褓婴儿，一手紧握长枪。

3-6秒：中景。镜头跟随推近，白袍上已溅有斑斑血迹，银甲反射夕阳余晖。他长枪一挑，挑落迎面而来的一名敌将，动作迅猛如梨花纷飞。四周曹军黑甲红旗如潮水般涌动，他穿插其中。

6-10秒：近景特写。将军回首一望，目光坚毅决绝，缰绳一带，白马长嘶人立，他低头看了一眼怀中婴孩，随即扬枪策马，冲入更深的尘烟之中。镜头定格于他冲入尘雾的背影。

整体：中国古典战争电影质感，冷暖对比强烈——白袍银甲与黄沙血色的对比，慢动作与实时动作交错，尘土飞扬，胶片颗粒感，自然光。参考《赤壁》《影》《满城尽带黄金甲》战场镜头美学，4K。

难点：多镜头、多景别、连续叙事；高速动作与慢动作交错；密集群体交互；特定历史风格与画面质感。

战争戏是影视拍摄难度最高的场面之一。模型生成单镜头大片感画面并不难，难的是连续切换景别还能保持叙事连续——马的颜色变了、披风消失、人物面孔在镜头切换间漂移，是这类生成最常见的翻车方式。

这段提示词把难度叠在了一起：景别从远景到近景，节奏实时与慢动作交错，赵子龙、白马等多主体调度，三层挑战同时存在。任何一层失控，画面就垮。

视频：长坂坡赵子龙（即梦版）

Seedance2.0的执行最完整。白马、银甲、红披风、怀抱襁褓、长枪、敌军红旗、夕阳战场这些提示词里的视觉要素几乎全部命中；赵子龙脸颊的伤痕、银甲上的血迹这类细节也按提示词如实生成。最关键的是叙事密度，它在10秒内完成了冲入战场—挑落敌将—回首决绝—冲入尘烟的完整动作弧线，几乎是对提示词的逐句还原。

视频：长坂坡赵子龙（可灵版）

可灵3.0单帧画面质感好，第5秒那一帧，盔甲花纹、披风纹理、群演调度等细节非常充实。但它实际叙事内容只完成了“冲入战场”这一个动作，即梦用4秒讲完的事，可灵用5秒只讲了一半。

视频：长坂坡赵子龙（HappyHorse）

HappyHorse在画面风格上偏离了提示词。提示词要求的是《赤壁》《影》一类的实拍电影质感，HappyHorse给出的却是3D游戏的CG画风，烟尘饱和度过高、写实感偏弱、背景群演面目模糊。在叙事密度上，它最弱。

02 测试二：黛玉焚稿

提示词：烛光昏暗的卧房内，一名病弱的年轻女子（林黛玉）坐于火盆前，手持诗稿缓缓投入火中。火光映照她苍白消瘦的面容，纸灰随热气飞起。镜头近景固定，极浅景深，光影对比强烈。

难点：静态情绪表演、”哀而不伤”的复杂情绪传达；古典室内空间的光影氛围；火焰与纸张的物理表现。

视频：黛玉焚稿（依次是Seedance2.0、可灵3.0、HappyHorse）

如果说赵子龙考验的是模型的动作能力，那黛玉焚稿考验的就是模型的表演能力。它没有剧烈动作、没有复杂场景，几乎所有信息都靠一张脸表达。这一组的真正难度在于复杂情绪的层次，模型必须在10秒内，通过面部微表情而不是动作来传达人物情感的复杂性。

Seedance2.0的表演水准接近古装剧的演员特写。视频中的黛玉情绪是克制、压抑的哀。后段有一帧人物含泪带笑、似哭非哭，表现出了黛玉“哀而不伤”的复杂感情。

可灵3.0把烛光、火盆、淡青色衣襟、深色木结构组成了一个冷暖对比的工整构图。它处理“焚稿”这个动作时给出了一个比即梦更具叙事铺垫的镜头——先凝视诗稿，再放入火焰，表达黛玉焚稿前的犹豫，但人物表演的层次稍弱。

HappyHorse开场把火焰直接挡在人物面前，后段镜头才切换到人物正面，人物眉头微蹙、眼眶泛红、神情哀痛，比可灵的人物情绪更有带动性，但更像是一种动漫女主式的夸张表达。

03 测试三：温酒斩华雄

提示词：温酒斩华雄，关羽推帘而入。古代军帐内，众将领围坐于桌前神情凝重。帐外远处传来马蹄声与金鼓声。一员红袍长髯的将军掀开帐帘大步而入，将手中物件掷于桌上。镜头从帐内众人转向帐门，跟随入帐之人转身回到桌前。

难点：多场景跨越叙事（帐内等候-关羽归来）；关羽人物形象的精确还原；多人凝视一人的场面调度；暗示性叙事（斩华雄不直接展示）。

视频：温酒斩华雄（依次是Seedance2.0、可灵3.0、HappyHorse）

这段提示词要求模型完成一个真正的电影叙事：两个空间（帐内、帐外）、两个时间（关羽离去、归来）、一组角色关系（凝重的众将VS归来的关羽），要讲一个事件。

主角辨识度也是难点之一。关羽是中国文化里高度符号化的形象，青龙偃月刀、长髯过腹、丹凤眼，任何一项缺失，这个人物就立不住。

这一组，三家模型都翻车了。

Seedance2.0几乎呈现了关羽的所有视觉符号。但视频后半段出现了空间穿模，关羽将手中物件原本搁在桌面靠近自己的一侧，下一帧却跳到了桌面另一侧，身旁众将的视线也随之转向另一边。主体一致性在10秒内出现了断裂。此外，提示词中“温酒”这一关键细节，即梦完全没有表现。

可灵3.0和HappyHorse的关羽辨识度都不足，红袍是有的，但长髯过腹这些关羽的核心视觉符号缺失。“斩首归来”这一核心动作两家也都没有表现。关羽手中之物被理解为酒壶，而不是华雄的首级。动作也变成了“温酒入帐”，叙事的核心反转完全消失。

值得专门指出的是，这一组镜头几乎集中暴露了AI生成多人时的标志性问题：几位将军的面孔高度雷同，同样的胡须、同样的发型、同样的盔甲，这是典型的“克隆人”翻车。

04 测试四：元妃省亲

提示词：夜晚的中国古典园林，亭台楼阁灯火通明，处处悬挂红色宫灯。香烟缭绕，花影婆娑。仕女们身着华丽古装在长廊中缓步行走。镜头缓慢横移，展现园林全景。柔和暖光，中国古典电影美学。

难点：多元素静态场景调度；复杂建筑空间还原；群体仕女形态一致性；古典园林夜景的光影氛围。

视频：元妃省亲（依次是Seedance2.0、可灵3.0、HappyHorse）

这组测试考验的是模型的东方美学还原能力，它不像战场戏那样靠动作密度赢得视觉刺激，而是靠静态画面里的元素精度。飞檐、雕梁、宫灯、长廊、香烟、水面倒影、人物服装，这些元素中任何一项出错，整个画面就会“塑料化”。

Seedance2.0的画面以人物为主体，叙事感最强。一队仕女缓步行进于水边长廊，服色错落有致，发髻整齐统一。镜头从水面倒影开始，逐步带出建筑、灯笼、再到行进的队列，信息密度层层递进。

可灵3.0的建筑更有质感，池塘雾气和水面倒影更是接近实拍。但开篇近5秒几乎是建筑空镜，人物只在画面边缘晃过；直到后半段镜头切换才出现仕女特写。在这组镜头设计上更重场景，轻人物。

HappyHorse前7秒全是空镜，仰拍灯笼、烟雾、阁楼，镜头在建筑间游移，完全没有人物。到最后2秒才让两位红衣绿裙的仕女缓步入画。虽然后两秒人物的服饰精度、面容质感、回廊光影都可圈可点，但整个视频没有表现出省亲主题。

05 测试五：早高峰地铁

提示词：早高峰的地铁车厢，镜头缓慢横移扫过几位乘客。有人低头看手机，有人靠窗打盹，有人带着耳机望向窗外。车厢轻微摇晃，窗外隧道灯光快速掠过。

难点：现代城市场景的真实质感；多人物群像；通勤者状态的精准刻画；地铁车厢内部细节。

视频：早高峰地铁（依次是Seedance2.0、可灵3.0、HappyHorse）

这组测试的是纯现代写实场景，任何一处违和，如错误的扶手形制、错位的广告牌、不像中国人的面孔、不真实的拥挤密度，都会让观众出戏。尤其值得指出的是，这组测试具有高度的地域性，北上广深的地铁几乎都有自己的车厢风格，人群的构成、车厢广告等细节很容易出现错位。

Seedance2.0在地域上出现了明显偏移。它的车厢内部精度接近实拍，不锈钢扶手、白色拉环、车门、广告位、座椅蓝色、人物姿态也很自然。但问题在于，画面整体看起来像韩国地铁，广告牌上的疑似韩文、车厢风格、人物面孔都偏韩系。

可灵3.0是三家中地域识别最准确的，车厢风格、宣传海报、广告LED屏、“禁止吸烟”标识等，都是国内地铁的标准配置。可灵的画面同样精度高，人物状态也真实。但它的问题是另一个维度的，车厢太空旷，不像早高峰。

HappyHorse是这一组的意外反超者。它最准确还原了早高峰的拥挤感，密集的站立通勤者、西装上班族在低头刷手机、戴围巾的中年女士、座位上闭眼休息的乘客。

06 测试六：林黛玉直播带货

提示词：现代直播间内，一位古装少女（林黛玉）坐于精美中式书房布景前，身着月白色绣花襦裙，手持一瓶护肤精华，面带浅笑娓娓而谈。她体态柔弱清瘦，眉间略带忧郁。背景有书架、瓷瓶、绿植，环形补光灯打在她脸上，桌前可见弹幕飘过的屏幕剪影。

难点：古今元素融合的合理性；直播间布景的现代真实感；古典人物气质的精确还原；产品特写的商业可用性；直播表演的微表情。

视频：林黛玉带货（依次是Seedance2.0、可灵3.0、HappyHorse）

这段提示词的难点不在于任何单一元素，而在于合理性，古装少女与现代直播设备的同框出现，既不能让观众笑场，也不能显得违和。

即梦的完成度最高，人物辨识度也最准。清雅气质、忧郁眉眼，黛玉的人物特征被准确捕捉。同时，环形补光灯、苹果笔记本、iPhone取景器、产品礼盒、新中式书房布景也全部到位。人物的口型自然、眼神温和、刺绣细节清晰可见。它让黛玉和直播间在同一个画面里看起来是合理的，而不是滑稽的。

可灵3.0在镜头视角上做了最大胆的设计。它没有正面拍“穿古装的人在直播”，而是给出了一个直播间外的观众视角：前景是一台显示着密密麻麻弹幕的屏幕，后景才是身着古装的少女在直播。这种视角设计还原了直播间这个空间的层次感，没有把它当成一个普通背景。但人物气质偏离了黛玉。

HappyHorse人物镜头出现了严重翻车。主播脸部被一块发光的白色光斑遮挡，可能是模型把环形补光灯的反射误生成在了人物面部上；产品特写镜头中又出现了三只手，这是AI生成手部时最常见的物理翻车之一。

值得注意的是，中文文字生成这个公认的软肋。可灵3.0和HappyHorse模型都给出了带弹幕屏的画面，但所有弹幕文字都是糊的乱码。

07 结语

这六组测试打下来，三家模型的水平差距明显。

Seedance 2.0是这次测试里综合完成度最高的，核心优势在于叙事密度，能在10秒内把提示词里的动作弧线基本跑完，赵子龙一战几乎是逐句还原，黛玉焚稿也给出了哀而不伤的情绪层次。但它并非没有短板，温酒斩华雄出现了空间穿模。

可灵3.0的单帧质量是三家里最稳的，黛玉焚稿的烛光构图、元妃省亲的水面倒影、地铁场景的标识细节，每一帧单独截出来都经得住放大看。但在连续叙事上仍有所欠缺，有时场景交代充分，人物和事件姗姗来迟。

HappyHorse作为三家里最新公测的模型，它在局部精度与某些场景表现突出，但整体稳定性与风格仍有待探索，例如，在赵子龙测试中给出3D游戏CG风格，元妃省亲前七秒全是空镜。

需要注意的是，不同效果背后，各家的收费也有差异。「AIX财经」同时购买了即梦、HappyHorse最高等级会员、可灵铂金会员，价格分别为499元、188元和186元，生成一段视频三家分别需要330积分、160积分和96积分。

另外，三家模型存在共同没有解决的问题，也代表着当前AI视频生成的天花板。例如，没有一家能在画面里稳定生成可读的中文，多人面孔一致性也是集体翻车点。

总结来看，三家模型都能生成好看的画面，但还没有一家能稳定生成一个完整的故事。AI视频生成要迈向“精准叙事”的专业创作门槛，还需要时间。

作者：陈丹编辑：魏佳

来源：定焦One

GPT Image 2 一脚踢翻即梦、可灵、通义万相

青瓜传媒 — Sat, 25 Apr 2026 00:05:59 +0000

2026 年 4 月 21 日，OpenAI 正式发布 GPT Image 2。发布当天深夜，中文互联网上一张图开始疯转。

那是一张 Mariah Carey 90 年代音乐生涯的中文信息长图。左边是她的侧面照，配文「她的高音征服了世界，她的音乐定义了一个时代」；右边是一条从 1990 到 1999 的年份时间线，每一年都有一段中文描述和代表单曲，旁边配着那一年的专辑封面——《Mariah Carey》《Emotions》《Music Box》《Daydream》《Butterfly》《#1’s》，一直到 1999 年的「传奇延续」。

信息量极大。而且——这张图是 GPT Image 2 一条 prompt 直出的。

一位资深设计师在腾讯新闻的测评里写：「这种大量信息 + 美感 + 准确性的三角组合，说实话，以前只有比较不错的视觉设计师能做到。」

但这张图之所以让中文 AI 圈坐不住，不是因为它代表了什么设计师失业，而是因为：它出自一个美国模型。

过去两年，中文市场所有的国产图像模型——快手的可灵 Kolors、字节的即梦 Seedream、阿里的通义万相 Qwen-Image——都在同一个叙事里活着：我们也许在某些维度不如 Midjourney、Nano Banana、GPT Image 1，但我们懂中文。中文字体、中文语义、中文审美、中文电商场景——这是一道 OpenAI 和 Google 进不来的护城河。

现在，护城河塌了半边。

一、回忆一下那道曾经很厚的”中文墙”

要理解 GPT Image 2 这次意味着什么，得先回忆一下这道护城河是怎么建起来的。

2024 年 7 月，快手在世界人工智能大会上开源了可图 Kolors。这是第一个真正意义上”原生支持中文文字生成”的文生图模型。快手团队为它专门构建了一个包含五万余个常用汉字的数据集，使它能稳定写出黑体、手写、书法等多种字体的中文字符。更关键的是，Kolors 接入的是 ChatGLM3 作为文本编码器，不像 Stable Diffusion 那样用 CLIP——这意味着它能处理 256 字符级别的复杂中文提示词，甚至反应效果比英文还好。

这是一个定义性时刻。从那一刻起，中文 AI 社区开始形成一种共识：国外模型再强，在中文这件事上玩不过国产。DALL-E 3 的中文是乱码，Midjourney 的中文像鬼画符，那时候的 GPT-4o 生图甚至不怎么敢写中文。

2025 年 9 月，字节发布 Seedream 4.0，把这道墙砌得更高。字节团队在 Artificial Analysis 国际评测上一举登顶文生图和图像编辑双榜，综合 Elo 评分超越 Google 当时的王牌 Nano Banana（Gemini 2.5 Flash Image）。中文文字渲染、亚洲人像一致性、4K 原生输出——这些都是字节打磨过的硬指标。

Seedream 4.0 最漂亮的一点是：它的中文渲染不只是”能出字”，而是能做整套的场景融合。商铺牌匾、海报标题、书法挂轴、手绘字体——它都能稳稳地压在画面里。知乎上有个高赞回答一句话定性：”seedream4.0 跟 NanoBanana 打个平手，但中文字生成无敌，这块相比外国模型几乎就是遥遥领先的。”

2025 年底到 2026 年初，阿里依次推出 Wan 2.6 和 Qwen-Image 2.0。阿里走的是另一条路：把 Qwen 大语言模型的中文理解能力，深度嫁接到图像生成模型里。Qwen-Image 2.0 支持 1k token 级别的超长中文提示词——官方给出的样例，是一段近千字的中文场景描述：冬日北京的街景、青灰瓦顶、朱红色外墙、田英章硬笔字、卡皮巴拉玩偶、雪人手写黑板——这种把细节堆到极致的中文 prompt，只有阿里和字节的模型吃得下。

这三家一起构成了中文图像生成的”铁三角”：快手开源、字节闭源、阿里云化。护城河看起来又高又厚。直到这个月。

二、GPT Image 2 是怎么把墙推倒的

OpenAI 这次发布 GPT Image 2，核心卖点看起来跟 Nano Banana 2 没有本质区别：文字渲染、原生 4K、高保真、多语言。但如果你只看这个列表，你会错过最关键的信号。

发布时 OpenAI 明确列出支持”加强”的五种语言：日文、韩文、中文、印地语、孟加拉语——这不是英文扩展到欧洲小语种的常规操作，这是一个正面扑向亚洲市场的清单。

实测结果比声明更硬。LM Arena 上，GPT Image 2 首发 Elo 评分：文生图 1512、单图编辑 1513、多图编辑 1464。第二名——Nano Banana 2——只有 1360。242 分的鸿沟。在这种榜单上，顶级模型通常只差几分，OpenAI 这次是直接抽刀斩断赛道。

但数字没讲清楚最刺痛的地方。刺痛的地方在这里——

场景一：中文电商详情页。过去电商行业有个固定工作流：拍产品照 → 修图 → 做排版 → 写文案 → 分区详情 → 场景图。一套做下来，设计师和运营要来回折腾一两天。现在，知乎用户实测 GPT Image 2：丢一张产品照 + 两句话，直出一张”靠谱修图师级别”的白底主图；再加一句”给我做一张详情页海报”，它真给出了一张像模像样的详情图，中文促销文案、产品卖点、分区布局都有。

这不是”能出中文”的水平——这是”能接住中文电商设计工作流”的水平。

场景二：中文招聘海报。过去不管是 DALL-E 还是 Seedream 还是 Nano Banana 2，你让它做一张文字密集的中文招聘海报（一堆职位 + 要求 + 联系方式），文字部分都会崩坏。GPT Image 2 是第一个能把这类”文字信息密度大于视觉权重”的场景做稳的外国模型。

场景三：中文信息长图 / 明星履历页。就是文章开头那张 Mariah Carey 时间线——中文、时间线、专辑封面、段落描述、整体氛围都要兼顾。这种图过去只有专业平面设计师能做。

场景四：招牌和街景文字。虎嗅的一篇分析写得很到位——让 GPT Image 2 成为最强生产力工具的那组能力（精确的文字渲染、可信的 UI 布局、真实世界的视觉词汇），恰好也是制造虚假信息的完美工具集。假 Bloomberg 终端、假 Slack 对话、假 UI 截图，”都是在已知视觉词汇之上叠加的密集文本，这正是 OpenAI 所优化的工作负载”。换到中文场景——假饿了么界面、假微信对话、假微博截图、假支付宝账单——同一套工作负载，同样适用。

这三个场景，过去是国产图像模型几乎唯一能稳定碾压国外模型的地方。现在，它们都被打穿了。

三、为什么这次的打击是”质变”

你可能会说：中文文字渲染不就是多训练点中文数据嘛？以前国产模型靠这个吃饭，现在 OpenAI 补上了数据，不就追平了？

没那么简单。这次的底层变化比”补数据”深得多。

第一，这不是简单”补数据”的版本迭代。 发布前业界普遍猜测 GPT Image 2 把架构从两阶段推理改成了单次推理，速度会提升好几倍。OpenAI 官方没有正面确认架构细节，但公开的特性足够说明问题——GPT Image 2 是 OpenAI 第一个内建推理能力（Thinking Mode）的图像模型。它可以在生图前先搜索网页、读取用户上传的文件（PDF、截图、品牌规范）、推演版面结构、从一个 prompt 生成最多 8 张风格一致的图，生成完还会自我检查输出。

这个变化的含义是：图像生成不再是”先写一段 prompt，扔给模型出图”的单次调用，而是一个带推理链的 agent 任务。换到中文场景里，它意味着：你不用再硬塞关键词告诉它”这是中式招牌”、”那是中国风排版”——它自己会先想一遍，再画。这就解释了为什么它能稳稳地把中文字压在曲面上、贴在反光材质里、塞进密集排版中。国产模型之所以在这些场景下容易崩，是因为它们还在”一条 prompt 一张图”的逻辑里，没有那个”先想一遍”的推理步骤。

第二，审美这关，国产模型比预想更脆弱。 过去我们习惯说国产模型”懂中文场景”。但中文圈的一个公开秘密是：国产模型输出的图，无论字节、阿里还是快手，或多或少带一种被用户称为”AI 感”或”土味”的东西——过曝的光影、过饱和的颜色、不自然的塑料质感、构图的俗气。知乎上有设计师总结：”以前 AI 画图最容易让专业设计师安心的一件事就是——它能画，但它不懂审美。现在这层安全感，也开始裂了。”

GPT Image 2 这次最大的意外之喜，恰恰是审美。知乎高赞评测里有几个关键词反复出现：”构图的节奏”、”色彩的克制”、”信息的主次”、”氛围感”、”那一点点’设计师会不会这么做’的味道”——这些不是中文数据能补出来的，这是视觉品味的训练。

第三，世界知识 + 文字 + 场景的三合一。 过去国产模型在中文场景的长板，是孤立的——你可以让 Seedream 写好中文，但让它理解”苹果那种冷峻高级质感”或”电商平台高饱和度带促销文案的网感图”，它得靠用户提示词里硬塞一堆关键词。GPT Image 2 天生带着”世界知识”，知道”张雪机车”该怎么画、知道”iPhone 16 Pro Max 高端商业广告”长什么样、知道”佳琦直播间”会出现在什么位置——这些东西，是在大量互联网数据里自然习得的。

爱范儿的评测里有个细节：让 GPT Image 2 生成”一个亚洲男性在商场刷手机”的纪实摄影风格图，它不只是画出了人，还在画面角落里自动塞进了一个”李佳琦直播间”的模糊招牌。这个细节比任何中文文字渲染都更说明问题——它不是”被教会了中文”，它是真的”看懂了中国场景”。

四、逐一看看三家国产模型的处境

即梦 / Seedream（字节）——正面迎战的那个

字节目前是国产图像模型里最靠前的选手，Seedream 4.0 的图像编辑综合 Elo 还排得上全球前列。它的优势仍然很硬：亚洲人像一致性全球最好、中文多字体多排版、多图融合、局部精准编辑、4K 原生、中国电商/短剧/漫剧工作流全打通。

但 Seedream 也有几个真实的问题：

产品端清晰度卡在 2K。字节 Seedream 4.0 技术文档里写的是支持原生 4K，但在即梦 App 上用户实测只能出 2K。这意味着商用场景下，设计师拿去做印刷物料时还是得放大。
审核严。 有独立开发者反映：”整体审核显著比 banana 要严格，很多能在 banana 跑的案例在即梦都会提示’你输入的文字不符合平台规则’。” 这个问题是所有国产 AI 产品都有的，但对图像生成杀伤力特别大——AI 生图最常用的场景之一就是”生成一张名人代言的调侃海报”，这类 case 在国产平台基本做不了。
Agent 模式的稳定性问题。 字节从 Seedream 4.0 开始主推 Agent 模式（用自然语言一条 prompt 让 AI 自己分解任务），但用户反馈失败率偏高、人物一致性不如 Nano Banana。
迭代节奏跟不上。 Seedream 4.0 之后，字节陆续推出了 4.1 和 4.5 试图拉近差距。但 Google Nano Banana Pro 一出来就把阈值顶高，用户对 4.1/4.5 的反馈以”模糊、提升不明显、脸部扭曲”为主。字节在一个月内连发两个小版本却没真正追上，暴露了更深层的问题——不是不努力，是模型能力的追赶速度跟不上通用模型的迭代节奏。

字节真正的底牌不在模型本身，而在分发：豆包、即梦、剪映、抖音这套生态把用户入口卡得死死的。你可能永远用不上 GPT Image 2 的 API，但你打开抖音刷视频的时候，字节的 AI 已经在你旁边了。

可灵 / Kolors（快手）——开源流派，重心已经转移

可灵的故事是三家里最微妙的。2024 年快手开源 Kolors 是”中文 AI 生图破冰者”的高光时刻。但 Kolors 此后的迭代节奏明显慢了下来，重心逐渐偏向可灵视频。

原因很现实：快手的业务护城河在短视频，不在图像。在国产大厂里，可灵的视频生成模型是目前国内 SOTA 级别，能跟 Sora 2、Veo 4 扳手腕。相比之下，守住图像生成的前沿要花的钱和算力，边际收益远不如 All in 视频。

所以可灵的策略大概率会是：图像放手，视频死守。GPT Image 2 的冲击对快手来说反而没那么疼——它不是快手的主战场。

通义万相 / Qwen-Image（阿里）——B 端生态里的长期玩家

阿里这边打法很不一样。通义万相 + Qwen-Image 是”绑在 Qwen 大模型生态里”的图像能力，主攻 B 端场景：淘宝电商、阿里妈妈广告、飞猪旅游图、阿里云企业客户。

Qwen-Image 2.0 的一个招牌能力是处理超长的中文 prompt——官方给出的样例 prompt 是一段 800 字的中文场景描述，包含材质、构图、文字、人物、环境、天气、光影。这种 prompt 解析能力确实是 GPT Image 2 短期内赶不上的，因为 Qwen 本身就是中文 LLM 的强者。

但阿里的问题也明显：审美上限还是不如 GPT Image 2。阿里的图像模型长期有一种”官方感”——干净、规整、工整，但少了设计师的那点灵气。在 C 端”让用户感到惊艳”的战场上，这是硬伤。

阿里的优势在 B 端：深埋在企业工作流里，淘宝商家用它做主图、跨境卖家用它做多语言素材、阿里云企业客户用 API 批量生图。这种”看不见但用得到处都是”的路径，GPT Image 2 短期内也打不进来——因为 OpenAI 在中国没有合规的 B 端入口。

五、为什么”中文护城河”必然会失守

一个更冷静的判断：中文作为国产大模型的护城河，从来不是技术壁垒，而是数据和注意力壁垒。当一家公司愿意花钱补中文数据、愿意专门投入算力优化东亚语言——壁垒就会消失。OpenAI 这次明确把中日韩印孟五个亚洲语言列为发力方向，说明它已经把亚洲市场正式纳入战略视野。

这背后有一个更大的历史规律。

回看互联网的上一轮”本地化护城河”故事：搜索引擎时代，百度靠中文理解、中文网页索引、中文输入法输入方式打败了 Google.cn，看起来是中文生态无可撼动。但后来的移动互联网证明了，护城河不是”中文”，是”App 分发入口 + 支付系统 + 内容生态”。电商时代，淘宝靠中国零售逻辑和物流体系打败了 eBay，看起来不可复制，但拼多多仍然从社交电商切进来重写了规则。

本地化从来不是一条可以长期依赖的护城河。

AI 图像生成这一轮也是一样。中文文字渲染、中文语义理解、亚洲人像审美——这些东西一旦 OpenAI/Google 决定要做，就能做到。而真正持久的护城河从来不是”模型能力本身”，而是：

分发入口（你能不能让用户顺手用到）
工作流集成（你能不能嵌入到用户每天打开的软件里）
合规优势（你能不能在监管框架下稳定交付）
生态互锁（你的模型能不能跟下游工具链产生网络效应）

这些才是国产模型真正应该守的东西。

六、国产模型的出路：不在”卷中文”，在”卷嵌入”

我的判断是，国产模型接下来不应该再把”中文优势”当成战略故事讲。这个故事可以讲给用户做宣发，但不能作为公司战略的核心。真正要打的三件事：

第一，把模型嵌入到分发入口里。 字节已经做到了一部分——豆包 + 即梦 + 剪映 + 抖音。阿里也在做——淘宝商家工具 + 阿里妈妈广告 + 钉钉文档。这是 OpenAI 在中国短期内打不进来的地方。

第二，在特定垂直场景上做深。 电商、短视频、社交营销、本地生活、游戏——这些场景对中文理解、合规要求、工作流对接的要求都很高，也是 GPT Image 2 的通用 API 一时半会儿接不上的。国产模型应该把这些场景做成”谁都拆不开的工作流”，而不是”一个能被 API 调用替换的模型接口”。

第三，承认”模型能力正在商品化”这个大趋势。 这正是我之前几篇文章里反复说的论点：当模型成本开始坍缩，真正的竞争优势会从原始模型能力，转移到上下文嵌入、工作流集成和信任。GPT Image 2 这次等于是给国产模型上了一课——你在模型能力这个维度上再卷十年，也卷不过 OpenAI 的迭代速度，但你可以在”怎么把模型塞进商家的日常”这件事上，建立 OpenAI 永远也复制不了的护城河。

七、最后说几句

2024 年快手开源 Kolors 的时候，整个中文 AI 圈有一种很难得的乐观情绪：我们终于有一个”中文原生”的图像模型了。两年之后回头看，那种乐观现在显得有点天真。

不是 Kolors、Seedream、Qwen-Image 不努力——它们在各自的时间窗口里都做得很好。而是 AI 模型竞争的底层逻辑，注定了任何一个看起来专属于”本地化”的优势，都会在通用模型的下一次迭代里被抹平。

GPT Image 2 的发布，不是让国产模型”完蛋了”。它是一个节点事件，宣告了一个叙事的终结——”我们因为懂中文，所以可以活得很好”这个故事，讲不下去了。

国产模型并没有失去未来。它们只是失去了一种可以让自己偷懒的优越感。从今天起，大家都要在”谁能在真实的生产场景里活下去”这件事上，重新比一次。

中文，曾经是国产大模型最温暖的护身符。现在它不是没用，只是不再是独家的。

而下一局怎么赢，跟”中文”已经没有关系了。

作者：秋叶的枫

即梦4.0之产品精修提示词（出图教程）

青瓜传媒 — Tue, 21 Apr 2026 02:41:42 +0000

即梦图片4.0模型首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成，能够通过自然语言灵活控制画面细节，用嘴改图越来越好用了，这次更新的模型具备精准指令编辑、高度特征保持、深度意图理解、多图输入输出、超高速超高清五大亮点，覆盖了多种创作场景，非常实用！

接下来就给大家分享一起来看看即梦4.0的产品精修提示词。

即梦4.0提示词手册！完整！

青瓜传媒 — Fri, 27 Mar 2026 00:45:13 +0000

同样的「夕阳下的少女」，别人出图是壁纸，你出图却像贴图。问题不在模型，而在「咒语」——提示词。

即梦 4.0 把多模态生成压进一个模型，却也更挑剔：它听得懂弦外之音，也会把一句含糊的「好看」直接演成车祸现场。

今天就给大家分享一份即梦4.0提示词手册！

一、生成+编辑的一站式操作

文生图：更强的指令遵循，更高的分辨率支持，更快的生成速度（2K生图用时不到 1.8s）

图像编辑：输入单/多张图片+自然语言指令，即可进行任何形式的编辑修改

组图生成：一次性生成多张具备关联性的图像，你的灵感脑暴好帮手

大白话描述需求即可准确完成增删、修改、替换、参考等编辑效果，实现商业设计、艺术创作、娱乐玩法多场景应用与玩法

高度特征保持

二、深度意图理解

1.知识升级：专家级知识储备，小字理解更进一个level

2.灵感成形：模糊->具象，”天马行空”的灵感变为现实

3.推理预测：更强大的推理能力，跨越时空预测模拟，让未见变可见

4.比例自适应：开启后，为你的画面定制化匹配最佳比例尺寸

三、多图输入输出

1.多图输入：一次性输入多张图像，支持组合、迁移、替换、衍生等复合编辑，实现高难度合成

2.多图（组图）输出：一次性输出多张图像，并且具备内容关联，做你创意脑暴/分镜创作的好帮手

四、超高速超高清

1.超高速：“秒级成图”的丝滑体验，文生图直出2K用时不到1.8s，创作大幅提效

2.超高清：分辨率再升级，最高支持4K分辨率生成，提供更大的后期编辑空间

五、场景应用与玩法

以下均左图+文本指令为输入，右图为输出。大部分case效果为后期拼合，实际为多张单图。非穷举，更多场景欢迎一起挖掘～

1.商业设计

将海报分别改为上下排版、左右排版、包围式排版、四角式排版、三角形排版、中心排版、对称排版的7种不同排版

参考这个LOGO，做一套户外运动品牌视觉设计，品牌名称为“GREEN”，包括包装袋、帽子、纸盒、卡片、手环、挂绳等。绿色视觉主色调，趣味、简约现代风格

根据这个包装的展开面生成包装盒（*生成效果稳定度较低）

给图3模特穿上图1和图2的衣服，并穿上图4的鞋子

制作这个储粮罐的电商主图，把它放在温馨明亮的客厅一角，一只猫正在闻它

根据图中的装修风格，生成一个相似风格的卧室

艺术创作

参考这张图的画风，生成一组漫画： 1. 男孩在候机室里等待飞机 2. 男孩坐上飞机，开心的看着窗外 3. 男孩来到梦中情校

参考图片形象生成一组动作片分镜

根据参考图生成2张图，分别生成帆布包、徽章样式的周边产品

参考图片形象生成一组童话绘本

生成三视图

将线稿变为恐怖电影场景

娱乐玩法

1参考图中形象，生成一张唐朝写真，背景虚化，柔和的暖色调……

2参考图中形象，生成一张日系清新写真，人像摄影风格……

参考图片形象生成一组搞怪、吐舌头的表情包

1参考女孩形象生成战斗漫画风格

2变成文艺复兴风格的油画

画面中的女人的脸换成猫咪脸/狐狸脸

将草稿图变成3d黏土效果，微距镜头，小男孩戴着棕边尖顶灰巫帽，手弹吉他……

把这张照片变成黏土风格。放在一张拍立得照片中…

让一辆拟人化的小汽车做出相同表情

六、提示词秘籍

1.编辑撰写指南

清晰明确的指令通常能实现更好的编辑效果，常见公式为变化动作+ 变化对象+ 变化特征，如：将骑士的头盔变为金色

变化动作：指变化的动作方式如移除/ 添加/ 替换/ 参考等

变化对象：指发生变化的对象如主体/ 背景/ 光影/ 色彩等

变化特征：指希望变化后呈现的效果如明亮/ 粗糙/ 雨天背景等

当有多图生成意图时，可以通过“一系列”“组图”“帮我生成几张图”等提示词触发组图，最多支持生成9张

当有明确需要保持的角色形象、产品信息、风格等特征时，你可以输入图像作为参考来保持一致性

使用精确的风格词或直接输入图像作为风格参考，有助于获得更理想的效果，更多艺术风格可点击

上传多张参考图时，明确指出不同图片需参考/编辑的不同元素可提高精准度，例如：将图1中的角色放入图2的背景中，参考图3的风格进行生成

2.生图撰写指南

建议用连贯的自然语言描述画面内容（主体+行为+环境等），用短词语描述画面美学（风格、色彩、光影、构图等）

一个女孩，撑伞，林荫街道，油画般的细腻笔触使画面生动美好

一个女孩穿着华丽的服装，撑着遮阳伞走在林荫道上，莫奈油画风格

提升指令响应：专业词汇使用词源语言，效果更准确

提升场景适配度：在有明确应用场景时，推荐写出图像用途和类型。例如：用于 PPT封面背景

提升文字准确率：把想要生成的文字内容插入“”引号中。例如：生成一张海报，标题为“Seedream V4.0”

七、文生图——美学/风格词

热门风格

美学

摄影

即梦4.0运镜提示词汇总！

青瓜传媒 — Thu, 26 Mar 2026 07:55:01 +0000

在视频创作、动画设计、AI生成内容等领域，运镜（镜头运动）是塑造视觉叙事的关键。即梦4.0（Dreamina）作为强大的AI视觉生成工具，合理运用运镜提示词能大幅提升作品的电影感、动态表现力和沉浸感。

本文整理了一份完整的 即梦4.0运镜提示词汇总，涵盖基础运镜、

情绪化表达及特效组合，助你精准控制画面动态！

一、基础运镜术语

1. 推镜头（Dolly In）

效果：镜头向主体靠近，增强聚焦感或压迫感。

提示词示例：缓慢推进，突出人物表情

压迫感逼近，镜头逐渐靠近眼睛

从全景推到特写，聚焦细节

2. 拉镜头（Dolly Out）

效果：镜头远离主体，展现环境或制造疏离感。

提示词示例：

逐渐拉远，揭示宏大场景

从特写拉到全景，展现人物与空间关系

后退式运镜，营造孤独感

3. 摇镜头（Pan）

效果：水平或垂直旋转镜头，模拟“环顾四周”的效果。

提示词示例：

水平横摇，展现城市天际线

垂直摇镜，从地面升至星空

快速摇镜，制造转场冲击

4. 移镜头（Tracking Shot）

效果：镜头跟随主体移动，增强临场感。

提示词示例：

滑轨侧跟，人物行走跟拍

低角度追踪，增强速度感

环绕运镜，360度展示角色

5. 升降镜头（Crane Shot）

效果：垂直升降，常用于宏大场景的揭示。

提示词示例：

无人机升起，俯瞰战场全景

俯冲下降，快速逼近地面

升降镜头结合推拉，电影感运镜

6. 变焦（Zoom）

效果：调整焦距，制造视觉冲击或心理暗示。

提示词示例：

快速变焦冲击，希区柯克式悬疑

呼吸感轻微变焦，模拟手持拍摄

反向变焦（Dolly Zoom），空间扭曲感

二、风格化运镜提示词

1. 电影感运镜

斯坦尼康稳定跟随，长镜头叙事

王家卫式抽帧+慢门晃动

胶片感手持摄影，轻微抖动

2. 游戏/动画运镜

第三人称视角环绕，角色展示

日漫画风，夸张透视变形

第一人称奔跑晃动，增强代入感

3. 科幻/未来感运镜

全息UI扫描视角，科技感镜头

时间停止+粒子悬浮特效

赛博朋克霓虹光影穿梭

三、情绪化运镜表达

四、特殊场景运镜

针对不同拍摄对象，即梦4.0也有专门的运镜技巧。

五、运镜提示词万能公式

【镜头运动方式】+【景别/视角】+【主体动作/细节】+【环境氛围】+【特殊效果】

示例1：产品展示

镜头缓慢环绕跟随黑色咖啡机（运动方式），从后侧转至正面，聚焦机身logo（细节），背景轻微虚化（环境），运镜无晃动，画面流畅自然

示例2：人物出场

模拟无人机低角度俯冲推进（运动方式），穿过金黄的银杏叶（障碍物），从公园入口快速切入长椅上的书本（近景主体），背景产生轻微运动模糊，强化速度感

六、实战应用建议

1.结合场景：根据故事氛围选择运镜，如悬疑片多用“窥视视角”，动作片多用“快速追踪”。

2.控制节奏：慢推适合抒情，快切适合打斗。

3.叠加特效：如“动态模糊+变焦”可增强速度感。

结语

掌握即梦4.0的运镜提示词，能让你的AI生成视频或动画更具专业质感！尝试不同组合，探索属于你的独特视觉风格吧！

即梦Seedance 2.0又出10种神级玩法！

青瓜传媒 — Wed, 25 Feb 2026 01:10:36 +0000

来不及解释了，大家玩Seedance 2.0都玩疯了，

我凌晨四点都还在排队，每当我以为玩法总结差不多的时候，就又看到了一堆好玩的。这篇文章我就直接把十种玩法要的素材和提示语都做出来了，开袋即食。

先超简单回顾一下Seedance 2.0是怎么用的，

在即梦里使用视频生成模式，打开全能参考，就可以上传文件生成了，豆包和小云雀的互动逻辑也都差不多。

Seedance 2.0现在支持图像，视频，音频，文本四种模态输入，混合输入总上限是 12 个文件，量大管饱。

这两天即梦还上线了图片5.0 Preview（也就是Seedream 5.0 Lite）图片模型，4k版本目前只有在即梦上才能体验，这次我结合在一起玩了一下。

Gogogo，快来看看这一大筐玩法，以及Seedream 5.0 Lite和Seedance 2.0的组合用法，

首先就是我一直想做的，让我家小猫和奥特曼对战的一个场景，之前要用两个模型，一个Banana2生成九宫格，一个sora2在九宫格基础上生成视频，但现在Seedance 2.0也可以做出九宫格分镜图生成连贯视频的操作了，动作和运镜转换超级丝滑，论导演的分镜思维这块。。。

操作过程so easy，

先用我的小猫生成一张和我想用的角色对战的场景图，5.0 Lite 现在目前对于角色的复刻做得还是不错的。然后我可以直接用这张图片，让 5.0 Lite给我做一张九宫格的分镜图，

使用这张图作为第一个分镜，给我生成一张两个角色对战打斗的大动作九宫格分镜图，每个分镜使用不同的景别，电影分镜的对战动作设计，把九个分镜图放在一张图中，保证每一个分镜图没有物理规律上的错误

然后这张图可以直接通过生成视频的小窗跳转到即梦下方的生成视频功能，步骤非常方便，

再用这个提示语就能做出上面给到那个带有动作和运镜的连贯打斗镜头了。

根据这张九宫格分镜图，给我直接做出一段非常连贯丝滑的拟人巨猫和红色巨人对战的视频片段，连贯的动作展现出精彩的打斗

如果你不知道这些动作要怎么写，我们也可以直接给 Seedance 2.0 提供一个带有动作的视频，给出人物形象图片还有场景图，让这些人物出现在视频中，并按照你提供的视频动作进行打斗对战。

这里需要注意的是，上传的视频素材必须在 15 秒以内。而且即梦对于素材的尺寸有很高的要求，我这里实测，只要提供 720p 左右的视频素材基本上都是可以的。

我这里直接做了一个对比，将我提供的原始打斗动作视频与生成的视频进行了演示。我提供的原始视频实际上只是一个没有经过渲染、类似建模画面。

但是，它可以直接把我想要的人物按照视频中的形象和风格渲染上去。人物动作，分镜和运镜几乎与原视频保持的非常一致。

说实话，以前要是按照提示语去写这样的一个分镜图或者画面内容，不知道要写多少提示词才能做到。但今天 Seedance 2.0只要给个视频就可以了。

当然，如果你想自己输入一段非常简单的提示词，它也可以做出一段非常精彩的打斗效果。

这里我尝试让自己和我家的猫进入到最近很火的“邵氏兄弟武侠电影风格”场景中，实现了一段非常流畅丝滑的打斗。

这三天测试下来，我发现如果只是提供图片作为参考，所消耗的积分要比同时提供图片和视频素材给模型参考时要少一半。

或者你就是想复刻某一段动画里的运镜镜头，也只需要把想要复刻的片段上传上去，这里我用到的人物、大鸟坐骑以及场景图片，都是用Seedream 5.0 Lite图片模型生成的，不同的主体也能保持一致的画风。

然后写好下面这个提示语，其实主要就是把每一张图片中的人物，对应视频中的哪一个元素写清楚，然后就可以直接生成了。

我同样是做了一个原视频和生成视频的对比效果，

虽然不是百分百完全复刻，但是这个效果至少已经能够做到七八成。而且，整个镜头中比较明显、比较突出的运镜也已经做到了。就这个效果放在之前，我是会有质疑到底能不能通过提示词做到这种运镜效果的。

还有一个很好玩的是，我们其实可以直接用 Seedream 5.0 Lite图片模型去做一个四格漫画，提示语这里我有一个模板，大家可以根据这个剧情去修改，这个5.0图片模型的文字效果稍微有点弱，但是他们会在年后对这个版本进行一个更新。

请生成一张竖版四格搞笑漫画，四格从上到下排列，画风为简洁国产条漫风，大头小身、圆眼睛、表情夸张但线条干净，背景简单，颜色清爽，文字为清晰中文气泡，像印刷漫画一样可读。
角色设定
同一位男主角，普通打工人，黑短发，灰色卫衣或灰色T恤，背单肩包
同一位上司，深色西装或衬衫，表情严肃
四格分镜与台词
第一格，办公室门口，男主探头进来，满头汗，上司站在门边盯着他
男主气泡：不好意思我迟到了，路上堵车
上司气泡：你家到公司三分钟路
第二格，镜头更近，上司皱眉，男主认真解释
男主气泡：电梯坏了，我走楼梯上来的
上司气泡：你在一楼
第三格，男主表情更紧张，突然灵机一动，抬手比划
男主气泡：我在路上还见义勇为了
上司气泡：你救了谁
第四格，反转，场景切到公司楼下花园，男生和另一个老头聊天，那个老头说：“你好，我叫义勇为”
画面要求
四格边框清晰，气泡不要遮脸，字要清晰不糊，上司表情要有那种无语凝噎的停顿感，整体节奏轻快。

然后我们就可以得到这样的一张四格漫画图。

把这张图片放到 Seedance 2.0 中，再给他一个你想要展示的动画视频类型，让他学习这段动画的风格，再给他这段提示词，

他就可以直接帮你复刻，把四格漫画做成一段连贯的小动画。我宣布AI漫剧这块我承包了！

或者我可以让他直接给我复刻抖音上很火的 @陶阿狗的特效视频，我直接用它做了一个小猫版本的。

实话实说，如果是让我自己手抠的话，我是做不出来的，但是现在Seedance 2.0做到了。

还有一个很牛的就是 Seedance 2.0 还可以做出文字或者logo的释出动画，我还直接用提示词让他给我做了一个我自己的 logo 文字视频动画。这要是放在以前，绝对是要会AE的人才能做出这种效果。。。

之前即使我用 AI 去做这种类型的文字动画，给到的版本其实还是稍微有些粗糙的。但是现在Seedance 2.0给到的版本，几乎和AE渲染的没差别了。

更厉害的点是，Seedance 2.0可以直接根据我们提供图片中的文字去生成一段视频。

我测试了很多遍，提供的文字内容我们要判断一下能不能在15秒内呈现出来，塞的内容不要太多。

这里我给 Seedance 2.0 提供了三张十日终焉开头的小说截图，然后它就给我生成了对应的剧情。

根据图中的文字内容做出相应的画面

你们可以看到，它对应这些图中的文字，呈现了一整段的内容（虽然时钟的时间错位了），我觉得看过这本小说的人就能发现，这个味道是特别对的。尤其文字中会有很多对于环境氛围的描述词，包括人数、整体的氛围感，它都拿捏得很到位，而且还能自动生成文字不崩坏的字幕。

这里有一个小 tips，

如果大家在使用 Seedance 2.0 的时候，会发现它在 80% 以上的情况下，都会自动给视频加上 BGM 和字幕。如果大家不需要音乐和字幕，可以直接在提示词中告诉它“不要 BGM”，“不要字幕”就可以了。

甚至不只是这种纯文字图片，如果我做好了一个脚本，我甚至可以把这种表格形式的脚本图片发给 Seedance 2.0，让它直接根据脚本中的分镜去做一个完整的视频。

整个视频呈现出来的效果让我非常震惊，它真的能够识别每一个镜头对应的画面景别，人物对白等细节，然后直接输出一个成片给我。

说实话，这个真的让我有点惊到了。如果你是一个做广告的公司，甚至可以不需要预拍了，去给甲方提案的时候可以做个成片，让他们看预览效果。

如果你提供了一个完整的产品图片，这甚至能作为一个几乎可以完整使用的小片。目前唯一需要提升的就是 Seedance 2.0 的清晰度。如果清晰度能再进一步，我觉得甚至可以直接拿去用了。

最后就是藏师傅发现的，可以直接上传一些我们平时旅行时拍的照片，让 Seedance 2.0给我们做出一段Vlog。

我年底去马来西亚拍的照有救了，

它没有改动原图，而且还会卡点，加一些小特效。我没有告诉它我去游玩的地方是哪里，它竟然能够识别出来，说明它是有一定的世界知识的。

平时分享生活肯定够用了，甚至弥补了一些朋友在出去玩回来后，想做动态视频展现却觉得花时间、麻烦、有难度的痛点。

没想到这一圈盘下来，排队就排到晚上十点了，但隔壁老外比我更惨，排都排不上，

这两天还有人发现有的时候不能传真人素材，我去验证了，目前在web端确实提醒了暂不支持真人人脸，但在app端，完成真人校验后，你依然可以让自己出演AI视频。

这是一个必然的过程，一方面，像Seedance 2.0这样强大的模型，它在技术上追求生成内容的极致真实。

因为它知道，更强的复刻能力，意味着更强的艺术表现力，能为我们创作者带来更大的创作自由。

但另一方面，平台也在积极地探索，如何为这种强大的能力，建立起必要的护栏。在鼓励创作和保护个人信息安全之间，寻找一个微妙的平衡。

当AI生成的内容，在像素层面，在物理规律层面，甚至在情感表达层面，都达到了与真实世界难以分辨的程度时，我们该如何与之共存？

今天的Seedance 2.0，其实已经给了我们一个答案的雏形。

平台和我们创作者要做的，就是共同去建立一套成熟理性的规则。

我们追求AI的真，是为了让我们的想象力，以最逼真的方式呈现

同时，我们也需要一个清晰的边界，来守护真实世界里，每一个人的权利和尊严。

作者：卡尔的AI沃茨

来源：卡尔的AI沃茨

DeepSeek + 即梦生成小红书爆文！

青瓜传媒 — Fri, 12 Dec 2025 06:04:34 +0000

做小红书最痛苦的是什么？

不是没灵感，而是灵感在脑子里，手却跟不上。想写个吸睛的标题，憋半天像写论文；想做张好看的图，打开PS就想关机。

今天贤哥不讲虚的，直接把一套经过实测的国产“王炸组合拳”交给你：DeepSeek + 即梦（Jimeng），这两款神器，一个负责帮你“想”，一个负责帮你“画”。最关键的是，它们都懂中文，门槛极低，甚至连图里的字都能直接给你生成好。不需要复杂的魔法指令，只要“会说话”就行。

贤哥早前实测的数据截图

第一步：把 DeepSeek 变成你的“爆款策划人”

很多人用 AI 写不出好东西，是因为你把它当成了搜索引擎，问一句答一句。其实，DeepSeek 最强的地方在于它的逻辑推理（在贤哥之前写的文章里也反复强调过）。

我们不要直接让它写文案，而是要让它先“采访”我们，弄清楚咱们到底想要什么。

贤哥为你准备了一段“万能调教指令”，你直接复制发送给 DeepSeek 即可：

请复制下方指令投喂给 DeepSeek：

你现在是一位拥有百万粉丝的小红书爆款策划专家。

我希望创作一篇高互动率的图文笔记。请不要直接生成内容，而是先执行以下流程：

阶段一：需求确认请向我提出 2-3 个关键问题（例如：我的目标人群是谁？我想推的产品/话题核心亮点的什么？我喜欢的视觉风格是实拍风还是插画风？），以确保你准确理解我的需求。阶段二：内容生成在我回答问题后，请输出以下内容：

1.3个爆款标题：包含情绪价值或悬念，带上emoji。

2.1段正文文案：口语化，第一人称，多分段，埋入热搜关键词，带上emoji。

3.1组即梦（Jimeng）绘画提示词：这是最关键的。

请根据我的需求，描述画面主体、构图、光影、配色。重要：如果需要画面中出现文字，请在提示词中明确标注(text: “贤哥演示”)的格式。提示词请用中文写。

发送这段话后，DeepSeek 就会像一个负责任的主编一样来询问你的需求。你只需要简单回答，比如：“我想推一款适合懒人的全自动咖啡机，目标是上班族，风格要温馨治愈。” 随后，它就会吐出非常精准的文案，以及那段我们最需要的——即梦绘画提示词。

第二步：用“即梦”一键生成带字海报（附3组神级Prompt）

拿到 DeepSeek 给的提示词后，咱们转场到“即梦”。

为什么选即梦？因为在国产 AI 里，它对中文文字的渲染能力是第一梯队的。以前我们做图，AI 生成完还得去修图软件里加标题，字体丑不说，还容易排版错乱。

但即梦可以直接把标题“长”在图片里，和画面融为一体，这种视觉冲击力在小红书的信息流里非常抓人。

为了让你立刻上手，贤哥给你整理了 3 组目前小红书最火的风格模板，你只需要把括号里的字换成你的主题，复制进去就能出图！

风格一：3D粘土风（适合好物分享、盲盒感）

这种风格自带“萌感”，点击率极高。

复制这段提示词：IP盲盒风格，C4D渲染，超萌的3D粘土质感，(text: “贤哥演示”)，柔和的演播室灯光，纯色背景，高细节，4K分辨率，糖果配色，可爱，治愈。

风格二：毛玻璃科技风（适合干货教程、数码评测）

这种风格高级、干净，一看就很专业。

复制这段提示词：极简科技风，半透明磨砂玻璃材质，悬浮的3D图标，(text: “贤哥演示”)，冷色调，高级灰，苹果设计美学，软阴影，景深效果，未来感。

风格三：治愈实拍风（适合情感文、生活Vlog）

这种风格主打真实，让人想要点进去看详情。

复制这段提示词：真实摄影照片，富士胶片感，自然光，生活气息，(text: “贤哥演示”)，文字写在便利贴上/或者写在咖啡杯上，温暖的色调，日系小清新，年轻女孩,高画质。

贤哥独家技巧：如果生成的文字有一点点错误，别急着重画。即梦里有个“局部重绘”功能，涂抹文字区域，让它重新生成一次文字即可。

第三步：去水印与合规发布（关键！）

即梦生成的图片，默认右下角会有官方水印。为了画面的精致度和沉浸感，我们需要处理一下。

这里有两个方案，小白首选方案一：

物理裁剪法（最安全、最快）：即梦生成的图片通常精度很高。你在生成时选择 16:9 或者竖屏比例，生成后直接在手机相册里编辑，把底部带有 Logo 的那一条裁掉。这不仅去掉了水印，还能让构图更紧凑。
消除笔大法：如果你不想裁剪画面，可以使用美图秀秀的“消除笔”功能，或者微信小程序搜“佐糖”，涂抹一下水印位置就能自动消失。

贤哥敲黑板：关于 AI 标识的合规性

不管是去掉水印还是保留水印，有一条底线咱们必须守住。

根据国家最新的《人工智能生成合成内容标识方法》以及小红书的平台规范，使用 AI 生成的内容必须进行显著标识。

我们去水印是为了“审美”，而不是为了“欺骗”。

所以在发布笔记的最后一步，请务必在内容发布之前勾选“AI 生成”的选项。这不仅是合规的要求，其实现在的用户对 AI 内容接受度很高，大大方方标注，反而显得你是一个紧跟科技潮流的博主，平台也不会因为你“伪造实拍”而给你限流。

总结

看，整个过程其实就是：问 DeepSeek 要思路 -> 找即梦要画面（套用贤哥给的模板） -> 简单裁剪去水印 -> 合规打标发布。

快去试试吧，做出的第一张图，记得在评论区艾特贤哥交作业！

作者：产品邦林景贤

即梦4.0 VS Nano Banana 深度评测

青瓜传媒 — Tue, 16 Sep 2025 01:26:56 +0000

最近的 AI 绘画圈被两款“新神”搅得沸沸扬扬——谷歌Nano Banana像一颗深水炸弹，在全球范围内掀起巨浪，而两周后字节发布的即梦4.0，也在国内市场搞得风生水起。

然而在这股热潮下，我注意到一个滑稽又耐人寻味的现象：不少内容创作者就像设定好了脚本的机器人，把之前在 Nano Banana 上玩过的那些套路，原封不动地在即梦 4.0 上复刻了一遍，号称什么即梦4.0“邪修”玩法，分享几个“进阶玩法”……

正如 X平台 @dontbesilent所尖锐吐槽的：“还在用 AI把照片变手办的博主，其实是在暗示自己创意枯竭，只会追逐过气的热点。”一句话击中了要害：这场表面上的技术狂欢，背后其实是信息食物链底端的盲目跟风和创意力的匮乏。

更尴尬的是，在铺天盖地的炫技分享下，真正深入的评测内容却少之又少。大家不缺新的 AI 工具“玩法说明书”，但缺的是真正穿透现象看本质的深度评测报告——即梦4.0与 Nano Banana相比到底如何？技术层面上有什么区别？他们背后又是怎样的产品战略？作为AI爱好者，网上吹嘘信息铺天盖地，我到底应该入坑哪一个？

于是今天，我决定当一回那个特立独行的少数派，卷起袖子来一次正儿八经的评测。不玩花活、不止步于喊两句“真香”就草草收场，我要做的是把这两位AI 绘画工具拉到同一个擂台上，来一场直击核心的正面对决。

评测方案

评测对象：Google Nano Banana ，使用平台：Gemini官方网站；即梦4.0，使用平台：即梦 AI官方网站。

评测内容/维度：此次评测我会让两边各生成两次作品，择优选出各自的最佳结果进行对比。具体评测维度分为以下几个方面：

生成方式：测试了文生图和图生图两种生成方式，看看在纯文本创作和给定原图再创作这两种条件下，两位选手的表现有何不同。
提示词难度：为了考察两者对不同复杂度指令的适应性，部分场景准备了简单提示词和复杂提示词。这样可以观察它们在详细需求和模糊要求两种情况下的输出差异。
语言种类：考虑到语言可能影响生成效果，我还针对一些测试场景分别使用中文和英文提示词各一次。毕竟NanoBanana来自国外，训练语料多是英文，而即梦4.0深耕本土，中文语料丰富，来一场中英文双语对决才能全面了解它们在不同语言下的能力长短。
场景类型：评测选取了生活场景和商业场景两大类具有代表性的应用情境。例如既有二次元手办这样的创意场景，也会有海报设计这类偏商业实用的场景。

说明：本评测耗时两天完成，因个人评测，精力有限，有诸多不足之处，还请见谅。若本评测给你带来了帮助，不妨点个赞，加个关注。

话不多说，咱们开始！

简单结论（后面有详细结论）

Nano Banana：像是 AI界的“Photoshop”。一个追求通用理解和图像处理极限的“通用创意引擎”。它的目标是成为一个强大、灵活、上限极高的底层工具，赋能专业人士进行天马行空的创作。OS：今天刚写完文章后，就看到朋友分享的一则消息，正好与我的观点不谋而合。

而即梦4.0：它的目标更聚焦，是想成为一个“AI平面设计师”。一个针对特定商业场景（尤其是电商、营销设计）深度优化的“垂直行业解决方案”。它的目标不是万能，而是精准、高效地搞定商业需求，直接出稿。

评测内容

经典热门手办生成

提示词：create a 1/7 scale commercialized figure of thecharacter in the illustration, in a realistic styie and environment.Place the figure on a computer desk, using a circular transparent acrylic base without any text.On the computer screen, display the ZBrush modeling process of the figure.Next to the computer screen, place a BANDAl-style toy packaging box printedwith the original artwork.

本次 Nano Banana胜出。Nano Banana一次抽卡成功（得益于原图主体单一，背景简单），我能明显感觉到Nano Banana在人物细节上，对提示词的理解上，更加到位，尤其是画面更加的写实。反观，即梦4.0画面就像加了深度滤镜，提高了对比度，且有一些粗粝感（物体表面的粗糙或不光滑的质感），这还是我在八张成图中，选取的一张我认为最佳的成图。如下图所示右边Nano Banana成图，左边即梦4.0成图（下文同理）。

OS：我看到有一些人在说即梦4.0更好，更像真实手办。我想说的是：拜托，这个就图一个新鲜，好看，尤其是与自己相似，进而满足自己的分享欲。谁又在乎这个是否与现实真实的手办像不像呢？

九宫格一寸照

提示词：根据用户提供的照片，给出九种完全不同的发型设计（日式韩式的甜美发型），要求输出白底证件照，白色衬衫，输出在一张照片，可以进行不同的发型展示。微微侧面 15 度，微笑。

Nano Banana胜出。本次生成的图片两者差别不大，但即梦4.0没有遵从“输出在一张图片上”的指令，即使我在后两次分别加上了“九宫格形式展示”，以及“九宫格一张图中展示”进行强调了，也不行。OS：即梦4.0是不是篡改了用户的提示词？或者说对用户的提示词进行了优化和扩写？可能经过改写后，没有“输出在一张图片上”的描述了。

为了让即梦能输出在一张图中，我又使用了另一组提示词，且分为简单和复杂，本次是考验即梦4.0对提示词的理解能力。

提示词1：

将其生成一张纯白背景，九宫格排版，分别有九种不同的表情的照片。

提示词2：

帮我生成一张照片：背景为纯白色，排版为九宫格，展示一只宠物的九种不同表情。

第一排：吐舌开心、微张嘴温和、爪靠脸腼腆；

第二排：平静神态、眯眼微笑、歪头好奇；

第三排：睁眼吐舌活泼、张嘴打哈欠慵懒、转头若有所思。真实摄影。

本次依旧是Nano Banana胜出。Nano Banana在简单或复杂提示词的表现都不错。如下图所示（右）复杂提示词的成图。而即梦4.0在简单提示词上成图没大毛病，但是在复杂提示词下却无法保持主体一致性了。OS：这次案例能辅佐我前面猜测：即梦4.0会优化用户提示词。

人物更换姿态

提示词：将图一人物换成图二中的姿势，专业摄影棚拍摄。

两者差不多，可以说打成平手。Nano Banana和即梦4.0都没有完全遵循我的指令，如 Nano Banana的人物朝向与线框图不一致，而即梦4.0成图中的人物朝向与原图一致，但背景加入了摄影器材，就现实“专业摄影”而言，是不会将摄影器材拍摄进去的。OS：就主观感受上，我更喜欢Nano Banana，毕竟AI味没那么重。

抠图并更换背景

提示词：将图一的背景色换成图二，其他元素不变，比例则为图二的1:1的比例。

Nano Banana胜出。下图所示，Nano Banana会揣测用户的意图，明确用户的真实需求，如即使我将比例参照的图片，错误写成了“图三”，但 Nano Banana还是出色的完成了任务。反观即梦4.0却没有理解我的需求，直接生成了图二背景图，再次生成时，依旧错误。

为了证明即梦4.0无法完成复杂任务。我更换了一个轻松点的任务。提示词：将图片背景更换为纯白色，比例不变。这次即梦4.0出色的完成了任务。不过，头发顶部的细节还是原图不符。如下图所示：

电商产品宣传图

提示词：为一款名为“夏夜沁风”的柠檬味气泡水设计一张电商详情页主图。要求包含产品名“夏夜沁风”，以及广告语“一口喝下整个夏天”，风格清新、有购买欲。

即梦4.0胜出。可以看到Nano Banana中文生成能力还是较差的，出现了字体扭曲和错乱，但是对提示词的理解还是到位，将产品名印在产品上，广告语则放在产品的上方。而即梦4.0不论是文字生成还是成图的整体与细节都很到位，基本可以拿它作为宣传图了。

即然Nano Banana中文生成能力较差，那么英文生成能力呢？

于是我将提示词翻译成英文，再一次进行了尝试。这次Nano Banana反而胜出了，一次成图，不但英文生成正确，且画面布局和风格也不错。反观即梦4.0生成的八张图都无法将产品名字印在产品上，而且令人不解的是出现了即梦4.0对提示词理解不到位的情况，提示词中明显是有个”e-commerce product detail page”（电商产品），这就意味着用户要的是电商产品宣传图。

电商产品设计图

提示词：把图一贴在图二易拉罐上，文字和背景则发挥你的想象，反正最终要生成一个可直接上架商品，专业摄影。

Nano Banana胜出。这里Nano Banana明显理解了提示词中的“商品”二字，给易拉罐加上了商品“皮肤”，且人物融合上也毫无违和感。反观即梦4.0，人物融合上有点像贴纸，贴上去的，最为关键的是没有给易拉罐加上商品“皮肤”。

建筑户型图

提示词：Help me convert this residential floor plan into an isometric photorealistic 3D rendering of the house.（请协助将这份住宅平面图转换为一张等角透视的照片级三维渲染图，以逼真展现房屋的整体空间布局。）

Nano Banana胜出。虽然Nano Banana成图中依旧残留原图的线稿，但线稿中的所有元素都囊括在内了。反观即梦4.0视觉，氛围上比较出色，但缺少原图中的很多元素，相当于作文跑题了，即便使用词很美，最终得分依旧是低分。

OS：是不是原图过于复杂了，即梦4.0不但对提示词有限制，而且对原图复杂度也有限制，否则无法理解并保持一致性？

实战案例1：样衣示意图

这是一个服装设计用户的真实需求。来自知乎用户@书荒菌的实操案例：他们把 Nano-Banana 真正用到服装打样前的决策环节。他们有个痛点是——在做样衣之前，想先判断“某块面料是否适配某个版型”，或“已定版型+面料，二者搭不搭”，还常常需要做示意图发客户确认。

Nano Banana胜出。看一下@书荒菌的评价：以前试过多种模型和工具，不是主体走样，就是质感不对，效果不理想。换用 Nano-Banana 后，核心问题基本被解决：在保持“版型/结构线/细节轮廓”不变的前提下，替换不同面料纹理，快速生成“上身效果图”。这样既能让团队内部直观看到面料与版型的匹配度，也能更高效地给客户预览，减少反复打样的成本和周期。

如下图所示，即便提示很简单，但即梦4.0依旧不能完美地完成此任务，八张成图中没有一个跟原服装保持一致的。而 Nano Banana 则一次性成功。另外，能明显看到即梦4.0增加了原图的对比度。

OS：我想@书荒菌还是会继续使用Nano Banana 。另外，这个案例辅佐了我上面的观点，即梦4.0不但对提示词复杂度/任务复杂度有限制，而且对原图复杂性也有限制。

实战案例2：小红书封面制作

我发现小红书长文的封面不够吸引人，于是找了个大字报的样图，让即梦4.0生成，这算是即梦4.0的主场，故这里不展示Nano Banana 基本都是中文文字错乱，主要考察即梦4.0在中文文字生成上是否也有限制。

提示词1（简单）：将这个封面的文字换成：“Gemini Chrome还没捂热，Claude就来炸场了！”，注意整体排版和布局，专业设计。

提示词2（较难）：将这个封面的文字换成：“Gemini Chrome还没捂热，Claude就来炸场了！”，将绿色背景放在“Claude”下，注意整体排版和布局，专业设计。

不出所料，即梦4.0完美地完成了简单任务，但在复杂任务上（加圈字效果），失败了。此外，相比较原图字体明显加深了。

在另一组相似的案例中，增加圈字效果（圈住“炸场”两字）指令后，即梦4.0出现了文字错乱，且这次画面的对比度明显增强，加入了粗粝感（颗粒感），在背景和字体边缘，会发现它不像原图那样是平滑纯净的色块，而是增加了一层细微的、类似胶片颗粒的纹理。还有就是背景虚化更强，成图中有意地加强了背景的模糊效果，使得前景的文字更加突出，视觉焦点更集中。如下图所示。

OS：说实话，我不怎么喜欢，这也不在实用，我更希望原图色调没有什么大变化，毕竟要和正文图片的色调保持一致。

实战案例3：公众号头像设计

我最近创建了一个新公众号，叫“AI有点离谱”，还差一个有趣的头像，于是我让Gemini帮我规划一下，生成了一组提示词：IP吉祥物设计：核心理念：创造一个能代表“AI有点离谱”的卡通形象。设计方向：一个“离谱”的AI助手：可以是一个有点呆萌、出bug的小机器人，或者一个表情搞怪的像素小怪兽。与“谱”字结合：设计一个以“谱”字为身体的卡通小人，给它加上眼睛和四肢，让它做一些“离谱”的动作。

让我们看看Nano Banana创造能力，总体还行，但还不能让我眼前一亮。

再看即梦4.0，这设计就有点花里胡哨了~

我看着Nano Banana和即梦4.0都无法生成令我满意的头像，于是我抱着试一试态度，去尝试了一下ChatGPT，你猜怎么着，还真有一个令我眼前一亮的设计，完全符合我的期待，哈哈哈，而且它还是个透明的。本次生成四张图，这是第二张图。

接着，我给它加了一个背景，于是“AI有点离谱”公众号的头像就诞生了。哈哈哈，真好看啊。所以，在创作上，大家也不要忘记使用 ChatGPT试一试，说不定有意想不到的惊喜。

总评：Photoshop的“蛮力”与设计师的“巧劲”

好了，经过上面十几个回合的“贴身肉搏”，相信大家已经对即梦4.0和 Nano Banana的脾气秉性有了非常直观的感受。现在，让我们从这些眼花缭乱的测试内容中跳出来，来一场真正的复盘，聊聊这些现象背后的技术本质。

评测结果的“规律”：一个“听话的全才”，一个“偏科的专才”

首先，我们总结一下能从评测中直接观察到的规律：

在处理复杂指令、保持主体一致性、理解微妙的上下文关系上，NanoBanana几乎是碾压式的胜利。无论是“九宫格”任务中对布局指令的严格遵守，还是“建筑户型图”和“样衣示意图”中对原图细节的高度还原，NanoBanana都展现出了一个顶级模型应有的、强大的“指令跟随”能力。
而即梦4.0则表现出了明显的“偏科”。它在中文文字生成和特定商业风格（如小红书、电商海报）上表现惊艳，几乎达到了“设计稿”级别。但在面对稍微复杂一点的通用任务时，就显得力不从心，频繁出现不听指令、丢失主体细节、甚至“自由发挥”的情况。

为什么会这样？难道是即梦4.0倍后的模型能力不如谷歌Gemini吗？

当然，也有这方面原因。不过，我要探讨的是它们背后两条截然不同的技术路线。

通用基础模型 vs. 垂直领域精调

Nano Banana，可以说是典型的“通用基础模型”的产物。你可以把它想象成一个用全世界图书馆的书、博物馆的画、互联网上亿万张图片喂养出来的“通才”。它的特点是：

知识面广，能力均衡：因为它见过的数据足够多、足够杂，所以它对世界有着更广泛、更底层的理解。这解释了为什么它能轻松处理各种天马行空的、跨领域的复杂指令。它就像Photoshop，本身没有预设的“风格”或“目的”，它只是一个极其强大的工具，忠实地执行你的每一个像素级指令。
“所说即所得”：它倾向于完全信任用户的输入。你给的Prompt越精确、越复杂，它能给出的结果就越接近你的想象。它不会去“猜测”你是不是想要别的。这种高控制性，对于需要精准创作的专业人士来说至关重要，这与StableDiffusion、Midjourney的设计非常相似。

而即梦4.0的行为模式，则指向了另一条路——“垂直领域精调”。你可以把它想象成一位“专才”。它可能和 Nano Banana一样，也学习了海量的通用知识，但在此之后，它的“老板”（字节）又给它找了一位“专业导师”，用成千上万份中国市场的电商海报、社交媒体帖子、广告设计稿等垂直数据，对它进行了“魔鬼式”的专项训练。

OS：大胆猜测一波，可能是字节高层感受到了Nano Banana爆火的压力，内部团队紧急对即梦3.0进行专项训练，仓促下推出的一款产品。

这种“精调”带来了两个直接后果，也完美解释了我们在评测中看到的一切：

“专业领域”的超能力：在中文排版、营销氛围感营造这些方面，即梦4.0之所以能比NanoBanana强一些，正是因为这些“精调数据”让它深刻理解了中文语境下的商业美学。它不再是一个冷冰冰的图像生成器，而是一个被注入了“设计灵魂”的解决方案。
“通用能力”的钝化：然而，精调是一把双刃剑。当一个模型被过度训练去适应某个特定领域时，它在其他领域的“通用性”和“灵活性”就可能会下降。这就像一个顶级的广告设计师，你让他去画严谨的建筑施工图，他可能会下意识地加入一些美化和氛围渲染，反而忽略了图纸的精确性。这就是为什么即梦4.0在处理“建筑户型图”和“样衣示意图”时会“跑题”——这些任务超出了它被“精调”过的知识范围。

即梦4.0是不是真的优化了用户的提示词？

我的答案是：是的。这在技术上被称为“自动提示词重写”。一些 AI产品为了降低用户使用门槛，会在后台内置一个语言模型，先分析用户的原始指令，然后把它“优化”成一个模型更容易理解、更容易出好效果的“标准版”指令，再拿去生成图片。

这下，即梦4.0的很多“迷惑行为”就说得通了：

当你在“九宫格”任务中强调“输出在一张图片上”时，它的“优化器”可能觉得“为用户生成九张高质量单图效果更好”，于是自作主张地修改了你的核心指令。

这种“优化”在简单、常规的任务上可能是“锦上添花”，但在需要精准控制的复杂任务上，就变成了“画蛇添足”，甚至是“灾难”。它破坏了专家用户对生成过程的精确控制。

所以，这再次反映了产品战略的根本差异：Nano Banana把你当成“创作者”，而即梦4.0把你当成“客户”。前者提供工具，后者提供服务。

我应该入坑哪一个？没有最优解，只有最优选

讲到这里，结论已经非常清晰了。这场对决，我想说的没有谁胜谁输——双方都在自己的预设战场上，取得了胜利。为了让你更清晰地理解，我做了下面这个总结表：

经验技巧 Get

若你不满意你使用 AI生成的图片，即便你抽卡几次也无济于事，那么你可以尝试去降低任务难度（提示词复杂度）或者降低原图复杂性。

在人物生成时，最好选取一张主体较少，背景简单的图片。当然，若你还是想用这张背景较为复杂的图片，那么，你可以分步骤进行，先让 AI进行抠图，或者更换一个纯色背景，再进行你的最终任务。如 X平台 @AI探路者Tim分享的帖子，这点与我的经验不谋而合。OS：咦，这不就是妥妥的上下文工程吗？

可以广泛收集，打造你专属的“AI工具箱”。还记得我们评测中那个有趣的插曲吗？在 Nano Banana和即梦4.0都搞不定的公众号头像设计上，反而是 ChatGPT给了我们意外的惊喜。

这给了我最重要的一个启示：顶级玩家从不迷信某一个“万能工具”，他们拥有一个丰富的“工具箱”。如我这篇文章提到的一个工作流，在让 AI撰写论文文献综述时，可以先使用 Gemini深度研究输出研究计划，接着使用 ChatGPT进行深度研究，输出文献综述。集各个 AI的优势于一个工作流中。

最后，推荐一下即梦4.0官方发布的《即梦图片4.0模型提示词手册》，足足有上千个案例分享：https://bytedance.larkoffice.com/docx/L4vCdah1DoDg7axVdYGcoplSn9f

好了，以上就是本次分享的全部内容。希望能帮到各位“稀有学生”建立一些认知。若对你有帮助，不妨点个赞，加个关注。

作者：草木青

国产AI视频三国杀：可灵、即梦、Vidu

青瓜传媒 — Wed, 30 Jul 2025 01:46:03 +0000

见惯了打工人的生活日常，你见过小学生的放学做饭日常吗？

近期，一批10后“小孩哥”“小孩姐”凭借做饭Vlog在网络上刷屏，他们娴熟的厨艺与稚嫩的外表形成强烈反差：10后小女孩站在灶台前动作娴熟地颠勺翻炒，上二年级的小男孩在菜市场熟练地和摊主讨价还价，回家后做出三菜一汤……

图片源自小红书

这种反差感极强的场景，正通过短视频平台持续发酵，单个视频甚至收获超500万的点赞。这些看似普通的儿童烹饪日常，为何能打破圈层壁垒，成为现象级内容？

反差萌+真实感+养成系，多重元素叠加出新赛道

在内容创作领域，一个传统赛道的破圈往往源于多元素的创新叠加。

近期爆红的小孩做饭Vlog正是这样一场成功的内容化学反应，它将美食制作、生活记录与成长观察完美融合，创新出有竞争力的内容特色。

与传统成人美食创作者不同，@俊希内容呈现了“美食+Vlog+小孩养成”多个元素。他全程采用儿童第一视角拍摄，镜头下，灶台显得格外高大，连炒菜都要站上专门搭的台子上，厨具也在小小的手中显得不成比例，这种独特的视角本身就充满了戏剧性。

图片源自小红书

此外，@俊希视频的魅力远不止于优秀的厨艺展示。在视频中，@俊希和妈妈的点菜对话，与菜市场叔叔阿姨们的自然互动，做饭时的游刃有余，每一个环节都打破了大家刻板印象中的小孩生活。第一视角的拍摄形式，更让观众仿佛附身于孩子身上，沉浸式体验从放学去菜市场挑选食材到端盘上桌的全过程。

在每期评论区都能见网友的震惊与夸奖：“我八十都不一定会做。”“这个孩子有链接吗？”“这才是你这个年龄该做的饭。”视频也从单纯的美食教程分享升华成孩子的成长记录。

图片源自抖音

自4月20日确立这一独特风格以来，@俊希在短时间内就有多个视频破百万，粉丝达到138万，这种惊人的数据表现，印证了“美食+vlog+小孩养成”这一内容组合的强大吸引力。

克劳锐发现，这样的组合呈现形式也并非个例。在短视频平台上，@阿泽-成长日记 @丛小吖等创作者都将内容对准放学做饭的日常，一群10后的“小孩哥”“小孩姐”正凭借做饭Vlog异军突起，成为新的流量焦点。

图片源自抖音

身份错位的反差与陪伴感，成为圈粉密码

为什么小孩子记录做饭生活的vlog这一形式的内容，能成为新的流量焦点？

克劳锐认为，此次第一视角记录做饭生活的赛道出圈，首先源于一种强烈的反差感。

例如，@俊希熟练地去菜市场买菜交谈，不仅对菜品的价格十分了解，还常常冒出“帮我打氧”“开背去虾线”等略显专业的话，奶声奶气的语调与专业术语形成奇妙反差。

图片源自小红书

同样，@阿泽-成长日记切十字刀等刀工，麻利干净的手法以及物归原位的好习惯，更是完全与大部分年龄相仿的形象不符。

在他们的视频中，能做的美食花样更是让观众惊讶，芥末罗氏虾、红烧鱼、柠檬鸡爪、干锅牛排、黄油蛤蜊、黄焖猪蹄……许多菜别说小孩，许多成年人都不一定会做。有网友甚至发现@俊希在连菜名怎么写都还不知道的情况下，就已经会做这道菜了。

这些细节的对比全是反差感的呈现，更打破思维定式，让观众对小孩的生活产生好奇和兴趣，年龄身份与技能的错位成了最核心的吸引力。

当然，光是反差还不足以解释这类视频的持续走红，更深层的原因在于，它们提供了一种新鲜且真实的观看体验。在成人主导的美食赛道中，儿童视角的加入打破了观众的审美疲劳。

与专业厨师和其他传统美食赛道里追求完美成品不同，孩子们的视频往往更注重过程。在视频中，他们会发生去买菜钱不够的情况，也会展现不太会切菜的笨拙，在身上画手表，对着镜子随地大小舞。这些流露出的“不完美”和童真，恰恰增强了真实感，让观众觉得这就像邻居家的小孩在学做饭，而非精心设计的表演。

此外，除了反差感和新鲜感来吸引观众，情感共鸣则是让这类视频持续发酵、不断圈粉的核心。正如@阿泽-成长日记的账号名一样，“小孩哥”“小孩姐” 的内容核心聚焦在成长记录。

@俊希在达到百万粉丝之际，也发布视频表示：“何其荣幸希宝能在各位的见证下成长”，对于观众来说，在观看视频、打发时间的同时，更是见证和陪伴了这些小孩创作者们的生活技能、性格品质一步步成长。

图片源自抖音

当镜头对准孩子，是在记录成长，还是透支童年？

然而，当儿童美食博主成为流量新宠，越来越多的孩子被推至镜头前时，光鲜亮丽的视频背后也开始浮现出令人忧虑的阴影。在@俊希 @@阿泽-成长日记 @丛小吖等创作者收获无数点赞的同时，关于儿童内容创作的争议也随之出现。

评论区里，除了“别人家孩子”的羡慕声外，还有少数网友发出“为了流量摆拍”“占用学习时间”“剥夺童年乐趣”等质疑声。

这些质疑也并非空穴来风。

今年年初，坐拥2000万粉丝的4岁萌娃@瑶一瑶小肉包就因一则争议视频陷入舆论漩涡。视频中，瑶一瑶在玩耍时被同伴“意外”绊倒大哭的画面，被网友质疑是父母精心设计的摆拍。母亲“前面拍摄没有成功，才故意安排了小男孩轻轻绊倒瑶一瑶”的回应，更是坐实了为流量刻意制造戏剧效果的嫌疑，引发全网声讨。

图片源自网络

这个案例更加放大了人们对儿童内容创作中最令人担忧的问题：当流量成为首要考量时，孩子的真实生活体验可能沦为表演素材。

随着商业价值的凸显，在看到小孩做饭Vlog这一新赛道的流量诱惑面前，我们难以确保所有创作者都能守住底线。后续是否会有人跟随热点去起号，甚至在持续的内容产出压力下，占用孩子娱乐与学习时间去摆拍。这种急功近利的操作，不仅违背了记录成长的初衷，更会消解内容最珍贵的情感共鸣点。

当流量成为唯一目标时，孩子的成长需求可能被忽视。或许，我们警惕和思考：如何让这些“小孩哥”“小孩姐”在用镜头记录生活的同时，依然能享受纯粹的童年？

作者：77

来源：TopKlout克劳锐