原创 夕小瑶编辑部 2025-09-09 16:27 北京
最近,Nano Banana 在各种社交媒体上都玩疯了。
合影、换装、分镜、生成视频……你随便刷刷 X、小红书、抖音,到处都是人用它把自己 P 进火影忍者、甄嬛传、演唱会后台,无痛追星。
但评论区里,最多的一句话却是:“Google 账号过不了,IP 又卡,怎么玩啊?”
终于,救星来了。
就在今天,首个支持 4K 高清多图创作的模型——豆包·图像创作模型 Seedream 4.0 上线了。模型支持 4K 多模态生图,支持多图融合、参考生图、组合生图、图像编辑,主体一致性大幅增强。
你现在可以在豆包、即梦和火山方舟体验中心上体验,而且“火山方舟体验中心”率先支持 4k 版(预计今晚上线)。企业可以通过火山引擎 API 接入。
在我们实测了两天过后,可以说:它不止是 Nano Banana 的平替,某些能力甚至直接超车。
口说无凭,我们直接上 case。
主体一致性
我们先上传了一张纯色手机壳图、一张蝴蝶图案纹样图。需求也很简单,看模型能不能把图案贴合自然。
生成效果一看,价值两三百的定制壳这不就来了。
图案铺得挺规整,细节没糊、摄像头位置也避让得干净。对电商、产品设计这类需求来说,已经够实用的了。
还有之前 nano- banana 刷屏的 3D 手办玩法,Seedream 4.0 同样可以轻松复刻:
看来这些难不倒它,这次我们直接丢了一张实拍的江南园林照片进去,想看看它能不能把这栋楼的结构还原出来,生成一张干净的白模图。
结果一看,确实是有点东西的。
屋顶、窗格这些关键部位没跑偏,整体比例也挺稳。原图那堆树、水面、倒影全被清理掉了,生成图干净得像做建筑方案用的效果图,构图对称,光线也更标准了。
这类转换以前只能建模手撸,现在一句话就能整出个像样的视图,做建筑展示、文化介绍、三维建模参考都能直接用上。
接下来,我们输入了一张原材料图:白菜、豆腐、生姜和几种调料,配了这句 prompt:
用这些食材为我做一顿美味的午餐,放在盘子里,盘子的特写视图,移除其他盘子和食材
这也太真了。。。完全看不出来是实拍还是 AI 图。
然后我们稍微改一下 prompt,变成外卖盒包装:
这组图一出来,我们就只剩一句话:这下,AI 外卖图真的肉眼分不出来了。
甚至,这个光泽,我都不敢说是预制菜。
我们之前说“AI 图会改变外卖图”,现在来看,不是改变,是直接接管。
多图融合
玩法一:火柴人姿势 + 一张图 = 任意你想要的专业摄影写真
这个玩法太有意思了,我们测试了一下火柴人动作 + 角色图的能力。
只上传了一张动漫头像,再配一个火柴人姿势草图,模型就能自动把人物“摆”进摄影棚,生成专业感十足的棚拍图。
动作基本一比一还原,连棚内的灯光、构图、服装结构都处理得像真的拍了一组写真。
我们又试了一版真人图 + 火柴人,再次验证。
而这个真人模特,想必大家都非常熟悉了。
模型直接给我们来了个川普版芭蕾动作分镜。
好标准的动作。看来舞台是真没他不能上的。
川普都能翩翩起舞,你说普通人还有啥镜头压力?
玩法二:火柴人姿势 + 两张图 = 任意你想要的合影姿势
没开玩笑,这波真的实现了,我和初音未来谈恋爱。
玩法很简单:你只需要准备两张人物图,再补一张火柴人姿势草图,模型就能把他们安排进同一个空间,摆出你想要的动作和互动。
动作自然、光影一致、互动流畅,两个角色哪怕风格不同,也能被处理得毫无违和。
这真的是梦女梦男们的福音了。
放在追星合影、整活、恶搞、纪念照、IP 联动这些场景里,这种“跨画风合影自由”,目前国内能稳定做到的,Seedream 基本是唯一一个。
回到更实用的玩法。
Seedream 4.0 支持最多上传 6 张图,比 Nano Banana 的 3 张上限宽裕不少。以前我们经常需要把多张素材图拼在一张图里上传,现在可以一次性丢进去,省事很多。
玩法三:多张图 + 场景拼装 = 任意你想要的空间布局效果
这组我们测试一下“室内拼装”能力:从几张风格不一的家具素材图出发,生成一个统一审美的家居空间效果图,并尝试还原成建筑类施工图视角。
整个过程不需要复杂描述,只用图 + 简单说明,模型就能识别出核心元素,并按空间逻辑合理排布。
既有审美,也有结构。实测下来,完全足够当作室内提案草图和设计师 or 工人扯皮了。
玩法四:人物 + 产品 + 场地 = 一整套带货感布景
这组我们测试的是直播场景的搭建能力。
我们分别上传了直播间背景、咖啡器具的产品图、人物图,看看 Seedream 4.0 能不能把这些碎片拼成一张完整、有氛围的带货图。
有一说一,Seedream 4.0 对于亚洲脸的一致性是真的强。
手握壶的位置准确,动作没穿模,整个桌面道具分布合理,布光方向统一,直播间氛围感直接拉满。
对品牌方、内容团队、或者独立商家来说,这个流程其实已经可以直接用来生成直播封面、教程图、带货宣传页,甚至是一整套静态图视觉素材。
连续生图
这次 Seedream 4.0 在连续生图上的表现有点离谱。
比如说,生成剧本分镜。
prompt:“生成一组偶像剧风格的狗血剧情连环画,主角是一位穿西装的中年男人和一位穿婚纱的年轻女孩。画面依次为:1)她在婚礼上大喊‘我要嫁的人不是你!’2)男人摘下墨镜露出泪痣 3)新郎当场落泪,花童举牌‘剧情反转’ 4)最后一幕两人牵手冲出婚礼现场。画风类似早期都市偶像剧,略带滤镜质感,构图夸张,情绪饱满。”
Seedream 不仅能照顺序生图,而且情绪递进、构图节奏、人物动作、场景背景全都稳稳在线。
每一张都能单独当做视频关键帧来用,连台词和场面调度都有那种国产狗血短剧的熟悉感。
再比如说——品牌视觉生成。
假如我们延伸业务想要开一家「小瑶烘焙」。
只需要上传一张 logo,剩下的交给 Seedream 来脑补。
它能自动根据 logo 字体风格、颜色调性,延展出一整套 mockup 应用图和网页主屏,视觉风格统一得像是你已经找了一个专业设计师打了三版方案。
而且中文的表现,真的很强。
过去我们用海外模型生成中文图像文字,基本上只能靠后期贴图解决,Seedream 4.0 现在能做到“原生中文 logo 不崩 + 自动适配场景”,确实是在中文商用场景上迈了一大步。
可以说,Seedream 4.0 这次无论是短剧分镜、剧情演绎、知识讲解,还是品牌设计、商业物料、应用展示……它都让「视觉生产力」彻底平民化了。
技术
你可能会好奇:为啥 Seedream 4.0 生成得又快又准,还能连续出图不卡壳?
一句话:它这次换了整套工作方式。
以前模型处理「生成」和「编辑」是两条路线:你要先画图,再切换到另一个系统来改图,两边数据、逻辑和能力全是割裂的。
但在 4.0 里,这些事情被整合成了一个闭环系统:一套模型,能同时听懂 prompt,也能理解图像,还能在两者之间做动态调整。
这就是所谓的「生成和编辑任务统一」,背后靠的是联合训练 + 多模态感知。
官方做了一套大规模数据 pipeline,从视频抽帧、HTML 页面抓图、图文组合扩展一直到数据过滤、自动标注,全链路都是围着“提升视觉理解”和“场景还原度”来的。
而且它不光是“看得懂图”,还能理解上下文。
它内置了一个 VLM 理解模块(可以理解为“懂图的语言模型”),如果你 prompt 写得模糊,它能自动补知识、补逻辑、补背景,不像有些模型一句话理解错了就歪到不知哪儿去了。
推理速度也确实肉眼可感地快了。
在实际测试中,4K 图可以做到秒级出图,且画质完全能撑得起商业场景的细节需求。
这种「快 + 准 + 灵活」的组合,放在图像模型里,其实就是用户体验的全部。
写在最后
说真的,这篇文章写到这里,提到的玩法还远远不够。
我们只是浅浅试了几种常见用法,像剧本分镜、短剧、产品图、电商视觉、角色合影这些,已经足够让人感受到 Seedream 4.0 的能力边界。
但它能干的事情,可能比我们想象的多得多。
所以最后你问我:Seedream 4.0 到底怎么样?
如果只从「普通人能用来干嘛」这个维度来看,它可能是目前国内唯一一个能做到“4k 画质 + 多图合影 + 连续分镜 + 中文商用图 + 秒级出图”的一站式模型。
你从构想一张图到发出去那一刻,中间不会被卡住。
这一点,很少有模型能做到。
在这个标准下,它确实配得上那个名字:中国版的 Nano Banana。
只是少了点硅谷滤镜,多了点生活痕迹。
