index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
视频模型Vidu推出“参考生图”功能,允许用户上传多达7张参考图,远超行业平均水平。该功能旨在解决AI生图“跑偏”问题,通过多参考图约束生成结果,并提升模型对细节和语义的理解。实测显示,Vidu在同类素材融合、跨类型素材融合、电商海报制作、产品替换及跨界融合等方面表现出色,尤其在光影细节处理和品牌文字精确复制方面接近实用级别。此外,“主体”功能允许用户建立角色档案,实现跨场景、跨作品的一致性,标志着AI生图正从娱乐走向工业化生产,构建数字资产库。
🌟 **多参考图增强AI生成精度与理解力:** Vidu的“参考生图”功能允许用户上传最多7张参考图,远超行业普遍的1-3张上限。这使得模型能够更精细地理解并保留主体细节、元素一致性及主体间的关系,有效解决了AI生图常见的“跑偏”问题,如五官崩塌、比例失衡等,为复杂场景的生成提供了更强的约束和指导。
🎨 **跨领域应用潜力巨大,尤其在电商场景:** 该功能在多种场景下展现了强大实用性。无论是融合不同类型的素材(如运动员、马斯克与机器人),还是为电商海报生成创意背景(如月饼配兔子、花灯),Vidu都能生成逻辑自洽且细节丰富的图像。特别是在电商海报中,其对光影细节的精确处理(如月饼的阴影、灯笼的投射)和产品替换(如模特手中手机的精确复制品牌文字)能力,使其接近实用级别,能显著提升效率并降低成本。
💡 **“主体”功能构建数字资产库,实现角色一致性:** 除了单次参考生图,Vidu的“主体”功能允许用户为同一人物、物体或场景建立“主体档案”,实现跨场景、跨作品的角色一致性。这对于内容创作者构建虚拟IP、电商商家反复使用模特素材等具有重要意义,标志着AI生图正从一次性生成转向构建可复用的数字资产,推动内容工业化流水线的开启。
🚀 **推动AI生图从“好玩”走向“好用”,赋能产业升级:** Vidu通过“参考生图”和“主体”功能,将AI生图从娱乐性工具提升为满足电商、广告、内容创作等行业实际需求的生产力工具。它提高了生成效率,降低了内容生产成本,使企业能将更多资源投入到品牌建设和创意策略上,而非机械性重复劳动。这预示着AI正成为内容生产的基础设施,为企业在激烈的市场竞争中赢得先机。
🌐 **AI生成内容工业化,为内容创作注入新动能:** Vidu的功能体现了AI在内容生产领域的“工业化”趋势,将素材资产化,创意流水线化。这不仅为设计师提供了更强大的创作辅助,也为整个内容行业带来了效率的飞跃。在内容消耗速度日益加快的时代,这类AI工具的应用将成为企业实现下一轮增长的关键驱动力。
原创 董道力 2025-09-12 09:54 北京
视频模型拿来生图,会是降维打击吗?

作者|董道力邮箱|dongdaoli@pingwest.com 在大模型的进化路径上,多模态往往是层层递进的过程:从文字,到图片,再到视频、空间,直至“一切”。每往前一步,都意味着数据维度的指数级扩展、算力的成倍消耗,以及训练难度的急剧攀升。从这个角度看,视频生成被视为“皇冠上的明珠”,因为它不仅要求单帧画面过关,还必须在时序上保持连续和自然。能做出高质量视频的团队,往往也能在图像层面有强大积累。因此,当 Vidu 在视频生成领域频频被关注时,人们自然会联想到:如果它能生出流畅的视频,那么在静态图像领域,会不会直接形成“降维打击”?9 月 9 日,生数科技正式上线了「参考生图」功能。这是 Vidu 体系在视频之外的又一次延展。不同于常见的“输入文字 → 输出图片”的方式,Vidu 引入了参考图机制:用户不仅能用文字描述需求,还能上传多张参考图,作为模型生成的依据。对 AI 生图来说,最大的不确定性往往在于“跑偏”:人物换脸时五官崩塌、产品换壳后比例失衡、跨风格融合时违和感强烈。增加参考图,就像给模型多加了几条“护栏”,不仅能约束生成结果,还能让 AI 理解更多语义、细节和风格。实测 vidu「参考生图」
我们对 Vidu 进行了多轮测试,涵盖了从娱乐性“玩梗”到实际的电商场景。参考数量“天花板”在参考数量上,Vidu 允许一次上传多达 7 张参考图,而业内普遍支持的只有 1–3 张,在复杂场景下却是决定性优势。用 VIdu 开发人员的话来说:多参考生图的关键在于不仅要理解每个主体中的每个细节,对于图片每个元素有着原子式的理解,能保持更多主体每个特征的一致,还要理解整个主体,理解每个主体之间的关系。任务 1:同类素材融合我上传了 4 张运动员照片(篮球与足球的“詹库连线”)。成品中,球员神态自然,衣服颜色、队徽、装饰元素都大体还原。虽然个别地方有 bug,比如“6”被识别成了 “s”,但考虑到只用到单角度图片,表现已属不俗。在对比其他产品时,差异立竿见影。很多平台在 2 张图之后就开始“力不从心”:要么强行把人物拼接在画布边角,要么直接舍弃某些参考元素。而 Vidu 可以同时“消化”多元素,在构图时保持自然。任务 2: 跨类型素材融合进一步尝试跨类型组合。比如上传马斯克头像、机器人参考素材。Vidu 能较好地保持马斯克的神态,还能让人物和机器人摆放到提示要求的位置。虽然最终画面略显僵硬,但逻辑是成立的。跨类型组合几乎是实际生产中最常见的需求。广告主往往希望把品牌、人物、场景和商品糅合在一张图里,传统方法要么靠摄影棚,要么靠 PS 美工,而 Vidu 的“多参考”机制为此提供了新的路径。电商海报神器任务 3:电商海报电商运营最头疼的,就是“只有一张裸图”。节日海报、主题促销、活动宣传都需要大量素材,但预算有限、时间紧张时,只能硬着头皮凑。在 Vidu 里,只要上传单一产品,再加上几个关键词,就能生成颇具创意的海报。比如上传一张月饼照片,再输入“兔子、花灯、月球”。生成结果不仅画面完整,还细致到阴影逻辑:月饼下方有光影,兔子脚下的灯笼也能投射出柔和的影子。对 AI 生图来说,“影子”往往是最难的细节,很多工具即便生成出漂亮的画面,也常常忽略光影关系,让成品显得虚假。而 Vidu 在这一点上的表现,说明其底层空间理解能力已经达到较高水准。任务 4:给模特换产品,给图片加包装做电商的同学经常会遇到一个场景,模特已经拍好图,但手里拿的不是最新款产品。要重新拍摄,成本和时间都很高。在 Vidu 中,我们尝试让模特保持动作,仅替换手中的手机。第一次测试结果不理想,模特姿势总有变化。但当输入更明确的参考图时,AI 可以基本维持动作,顺利替换产品。我们再来看一下产品细节,可以看到,“SONY”“XPERIA”等品牌文字,以及闪光灯位置都被精确复制,几乎没有偏差。唯一的小瑕疵是颜色较淡的 NFC 标志被识别错误。在这一点上,Vidu 已经接近实用级别,它或许还不能完全替代拍摄,但能大幅缩短修改流程,降低成本。任务 5:元素跨界融合跨界做海报也是电商常见的需求,但往往会遇到跨的步子太大导致风格不统一等问题。比如你有一张李白的复古图片,想要让他拿着产品,很可能会导致突兀。但在 vidu 这你只需要明确画风就能将二者很好的融合。AI 生图也有上下文如果说「参考生图」是解决“单张图如何变得更合理”的问题,那么「主体」功能则把问题往前推了一步:如何在多张图、多场景中保持同一个角色的一致性。在 Vidu 的设计里,用户可以上传 1–3 张同一人物、物体或场景的照片,系统会为其建立一个“主体档案”。这意味着,你不仅能临时参考几张图片,还能在之后的所有生成任务中,持续调用这个角色。为什么这很重要?因为一致性,向来是 AI 生图最大的痛点。过去生成十张图,模特的脸型可能有十种版本,产品的细节每次都走样。主体功能的出现,就像在 AI 的记忆里安了一卷底片,让角色有了稳定的身份。对于电商商家来说,这意味着:一次上传模特,就能在圣诞海报、中秋海报、夏季促销图中反复复用;对于内容创作者来说,则是虚拟 IP 的长线运营基础,一个角色能跨越无数作品保持统一风格。从“参考”到“主体”,Vidu 的逻辑已经不再是“帮你生一张图”,而是悄然在构建一个 数字资产库:每个人物、每个产品都可以被召回、被复用。这不只是生成,更是内容工业化流水线的开端。从功能到产业
Vidu 的「参考生图」与「主体」功能,正在把 AI 生图从“好玩”推向“好用”。它不仅满足了用户的娱乐性需求,更切中电商、广告、内容创作等行业的实际痛点:一致性、效率和成本。过去,品牌要为一次节日营销临时组织拍摄,动辄花费数十万;如今,运营团队只需上传几张参考图,就能在数小时内完成一整套物料。对于设计师而言,这不是替代,而是扩展——让他们可以把精力放在创意与策略上,而非机械性的重复劳动。从行业视角看,这意味着电商内容生产正进入一个新的阶段:素材资产化,创意流水线化。在这个阶段,AI 工具不再只是辅助,而是成为基础设施。谁能率先掌握这类工具,谁就能在激烈的市场竞争中赢得先机。Vidu 正在提供这样一种可能性:让企业把有限的资源投入到品牌和创意价值上,把重复性的执行交给 AI。对于一个内容消耗速度日益加快的时代,这可能正是下一轮增长的关键。阅读原文
跳转微信打开