掘金 人工智能 09月19日
快手可灵数字人:从对口型到全方位表演
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

快手可灵团队近日推出了全新的数字人功能,打破了传统数字人仅能对口型的局限。新功能名为Kling-Avatar,能够让数字人根据声音的旋律和情感自然扬起嘴角、眼神含笑,甚至随着说唱节奏起伏,展现出更生动、更具表演力的姿态。该技术实现了在分钟级长视频中保持动作自然、镜头流畅,并能稳定延续整段表演。Kling-Avatar背后的核心是多模态理解与两阶段级联生成框架,通过MLLM Director将音频、图像和用户文本指令融合成清晰的故事线,并生成全局一致的蓝图视频,再精细化生成子段视频,最终拼接成影视级的数字人演绎。

✨ **从“对口型”到“会表演”的飞跃:** Kling-Avatar 实现了数字人从单一的口型同步到具备丰富表情、情绪和肢体动作的全面表演能力。通过对音频中的情感轨迹和用户文本指令的深度理解,数字人能够自然地扬起嘴角、眼神含笑,并随着音乐节奏做出相应动作,使观看体验从机械的口型运动转变为富有感染力的“活”的表演。

🎬 **多模态理解与全局规划:** 该技术的核心在于一个名为MLLM Director的多模态大语言模型模块。它能够整合音频内容与情感、图像中的人像特征与场景信息,以及用户的文字提示(如动作、镜头语言、情绪变化等),将其转化为一条结构化的剧情描述。这条描述随后被注入视频扩散模型,生成一段全局一致的“蓝图视频”,为后续的精细化生成奠定节奏、风格和表达的关键节点。

⏳ **两阶段级联生成与长视频挑战:** Kling-Avatar 采用创新的两阶段级联生成框架来克服长视频制作的难题。首先生成一段蓝图视频,然后从中挑选高质量关键帧,以相邻帧为首尾条件并行生成多个子段视频。这种并行合成方式大大缩短了生成时间,并能稳定地生成分钟级长视频,同时通过音频对齐插帧策略保证了口型与声学节奏的帧级同步,实现了动态性、身份一致性和口型同步的完美结合。

📊 **严格的训练与测评体系:** 为保证生成质量,团队构建了包含数千小时视频的训练数据集,并引入多种专家模型进行多维度质量检测,再辅以人工复核。此外,还开发了一个包含375个多样化输入样例的测评基准,涵盖不同语言、语速、情感和镜头控制,为评估数字人像视频生成方法在多模态指令跟随方面的能力提供了有力依据。在与先进方法的对比中,Kling-Avatar 在多项关键指标上均表现出显著优势。

💡 **技术创新与未来展望:** Kling-Avatar 不仅在表达深度上取得了突破,还通过其两阶段生成框架在响应速度和长视频生成能力上展现出优势。快手可灵团队致力于持续探索高分辨率、精细动作控制和复杂多轮指令理解等前沿技术,旨在让数字人的每一次表达都更加真实、动人,赋予数字人真正的“灵魂”。

让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的,是当明快的旋律响起,它会自然扬起嘴角,眼神含笑;当进入说唱段落,它会随着鼓点起伏,肩膀与手臂有节奏地带动气氛。观众看到的不再只是嘴在动,而是整个人在表演。这种表现不仅限于几个片段,而是能够稳定地延续到分钟级长视频中,在整段时间里保持动作自然、镜头流畅。

近日,快手可灵团队把这一构想带到了现实。全新数字人功能已在可灵平台正式上线(app.klingai.com/cn/ai-human… Kling-Avatar 与项目主页同步发布。报告系统解析了可灵数字人背后的技术路径,阐明如何让一个只能跟着声音对口型的模型,进化为能够按照用户意图进行生动表达的解决方案。

可灵数字人产品界面。网址:app.klingai.com/cn/ai-human…

论文地址:arxiv.org/abs/2509.09…

项目主页:klingavatar.github.io/

一、多模态理解,让指令变成可执行的故事线

借助多模态大语言模型在生成与理解一体化上的能力,Kling-Avatar 设计了一个多模态导演模块(MLLM Director),把三类输入组织成一条清晰的故事线: 从音频中提取语音内容与情感轨迹;从图像中识别人像特征与场景元素;将用户的文字提示融入动作方式、镜头语言、情绪变化等要素。导演模块产出的结构化剧情描述,通过文本跨注意力层注入到视频扩散模型中,生成一段全局一致的蓝图视频,明确整段内容的节奏、风格与关键表达节点。Kling-Avatar方案框架。由多模态大语言模型(MLLMs)赋能的MLLM Director首先将多模态指令解释为全局语义和连贯的故事线,基于该全局规划生成一个蓝图视频,然后从蓝图视频中提取首尾帧作为条件控制,并行生成子段视频。

二、两阶段级联生成的长视频生成框架

蓝图视频生成后,系统在视频流中根据身份一致性、动作多样性、避免遮挡、表情清晰等条件,自动挑选若干高质量关键帧。每相邻两帧作为首尾帧条件,用于生成一个子段落。所有子段落根据各自的首尾帧并行合成,最后拼接得到完整视频。为避免首尾帧处画面与实际音频节拍的错位,方法还引入音频对齐插帧策略,保证口型与声学节奏的帧级同步。

此外,团队还精心设计了一系列训练和推理策略,保证视频生成过程中音频与口型的对齐和身份一致性:

三、训练与测评数据管线

为了获得多样高质量的训练数据,团队从演讲、对话、歌唱等高质量语料库中收集数千小时视频,并训练多种专家模型用于从嘴部清晰度、镜头切换、音画同步与美学质量等多个维度检测数据的可靠性。对专家模型筛选出的视频,再进行一遍人工复核,得到数百小时高质量训练数据集。

为了验证方法的有效性,团队制作了一个包含 375 个“参考图–音频–文本提示”的测评基准,该测评基准包含了丰富的输入样例,图片涵盖真人/AI 生成图像、不同人种、以及开放情境中的非真人数据;音频涵盖中/英/日/韩等多种语言,包含不同语速和情感的台词;文本提示包含多种多样的镜头、人物动作、表达情绪控制。该测评基准为现有方法提供了极具挑战性的测试场景,能够充分评估数字人像视频生成方法在多模态指令跟随方面的能力,将在未来开源。

四、实验结果对比

在定量验证方面,团队精心设计了一套基于用户偏好的GSB(Good/Same/Bad)测评体系。对每个样本,由三名评测者将Kling-Avatar与对比方法逐一比较,给出 “更好”(G),“一样”(S),“更差”(B) 的判断。最终汇报 (G+S)/(B+S)作为指标,用以衡量“更好或不差”的占比。同时在四个维度给出分项结果:总体效果、口型同步、画面质量、指令响应、身份一致。对比方法选择最先进的OmniHuman-1、HeyGen 等产品。在构建的测评基准上与OmniHuman-1和HeyGen的GSB可视化对比。Kling-Avatar在绝大多数维度上取得领先在全部Benchmark和各个子测评集的GSB指标对比。Kling-Avatar全面超过OmniHuman-1,并在绝大部分指标上超过HeyGen。

在多种场景的对比测试中,Kling-Avatar 所生成的唇形不仅在时序和形态上与音频高度一致,面部表情也随着语音的起伏变化而更显自然。即使在发音难度较高的音节(如“truth”,其标准发音为[truːθ],[u:]要求双唇前突、口型小而紧)或高频语音中的短暂静音段落,Kling-Avatar 均能够准确还原相应的口型状态。

在“情绪、动作、镜头”三类控制上,Kling-Avatar能够更准确地体现文本提示中的意图,在歌唱、演讲等复杂场景下的动作与镜头调度更加贴合语义。下图展示了Kling-Avatar生成的一些视频示例,其中包含了人物的情绪控制如“兴奋”,镜头控制如“镜头缓慢上移”,生成结果均有良好的响应。

Kling-Avatar的另一大优势是长时视频生成。因为采用两阶段生成+级联并行生成的框架,因此在首先获得蓝图视频后,可以从蓝图视频中选择任意多数量的首尾帧,并行生成每个子段视频,最后再完整拼接在一起,总生成时间理论上与一段生成时间相当,因此可以快速稳定的生成长视频。下图展示了1分钟长视频生成的例子,生成结果在动态性,身份一致性保持,口型等各方面都获得了令人满意的结果。

五、总结

从“对口型”迈向“会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。

近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。除了 Kling-Avatar,团队前不久还提出实时多模态交互控制的数字人生成框架MIDAS (chenmingthu.github.io/milm/ ), 二者分别在“表达深度”与“响应速度”上实现了重要突破。未来,团队将持续推进高分辨率、精细动作控制、复杂多轮指令理解等方向的前沿探索,致力于让数字人的每一次表达,都拥有真实而动人的灵魂。

【END】

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

数字人 AI 快手 可灵 Kling-Avatar 多模态 视频生成 人工智能 AI Human Kuaishou Kling Multimodal Video Generation
相关文章