我爱计算机视觉 09月12日
人类动作视频生成技术综述:五阶段框架与LLM应用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人类动作视频生成技术正快速发展,应用前景广阔,但现有研究碎片化。一篇发表于IEEE TPAMI的综述《Human Motion Video Generation: A Survey》填补了这一空白,系统回顾了200余篇相关论文,涵盖10多个子任务。该综述首次提出了一个包含输入、动作规划、动作视频生成、精细化和输出的五阶段生成流程框架,并探讨了大型语言模型(LLM)在动作规划中的潜力,为理解和推动该领域发展提供了新视角。

📝 **全面梳理与框架构建**:该综述系统性地回顾了200余篇关于人类动作视频生成的研究论文,涵盖了2D/3D骨架、SMPL/FLAME模型、深度图等多种数据表征,并首次提出了一个包含输入、动作规划、动作视频生成、精细化和输出的五阶段生成流程框架,为理解和组织该领域的各种技术提供了一个统一的视角。

💡 **LLM驱动的动作规划**:综述的一大亮点是探讨了大型语言模型(LLM)在人类动作视频生成领域的潜力,特别是将其作为动作规划器。LLM强大的理解和推理能力可以处理复杂的、带有情感和上下文的指令,生成更精细、更自然的动作描述,从而驱动生成模型,例如InstructAvatar利用GPT-4生成与音频同步的动态视频。

🚀 **技术发展脉络与挑战**:文章梳理了从GAN和自回归模型到当前Diffusion模型主导的技术发展历程,并指出了数据稀缺、照片级真实感不足、时序一致性挑战、可控性与时长限制以及实时性与成本等关键挑战,为未来的研究和工业应用指明了方向。

CV君 2025-09-05 12:32 江苏

从能歌善舞的虚拟偶像到高保真的数字人主播,人类动作视频生成技术正以前所未有的速度渗透到我们生活的方方面面,展现出巨大的应用潜力。然而,该领域的快速发展也带来了技术上的碎片化,现有的综述往往只关注某一特定任务(如说话人脸生成),缺乏一个全面、系统的全局视图。

近日,一篇被 IEEE TPAMI (模式分析与机器智能汇刊) 接收的重磅综述 《Human Motion Video Generation: A Survey》 ,由 清华大学、中国科学院、华为诺亚方舟实验室、01.AI、西安交通大学、复旦大学 等十余家顶尖学术和工业界机构的研究者共同完成,旨在填补这一空白。该综述系统性地回顾了 200 余篇论文,涵盖 10 多个子任务,并 首次提出了一个包含五大关键阶段的生成流程框架,同时也是 第一篇探讨大型语言模型(LLM)在该领域潜力的综述

论文标题: Human Motion Video Generation: A Survey

作者: Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, and Fei Richard Yu

机构: 清华大学; 中国科学院; 华为技术有限公司; 01.AI; 西安交通大学; 复旦大学; 中国科学院大学; 南京理工大学; 广东省人工智能与数字经济实验室(深圳); 深圳大学; 卡尔顿大学

期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

论文地址: https://arxiv.org/abs/2509.03883

项目地址: https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation

核心框架:人类动作视频生成的五阶段流水线

这篇综述最大的贡献之一是提出了一个清晰、完整的五阶段生成流水线,将复杂的人类动作视频生成过程分解为 输入(Input)、动作规划(Motion Planning)、动作视频生成(Motion Video Generation)、精细化(Refinement)和输出(Output) 五个环环相扣的阶段。这一框架为理解和组织该领域的各种技术提供了统一的视角。

阶段一:输入 (Input)

万物始于输入。人类动作视频的生成可以由三大模态驱动:

视觉驱动 (Vision-driven): 使用参考图像(如一张静态照片)或参考视频(如一段舞蹈视频、一个姿态序列)来驱动生成。

文本驱动 (Text-driven): 使用自然语言指令(如“一个女孩在微笑”)来生成相应的面部表情或身体动作。

音频驱动 (Audio-driven): 使用音频信号(如语音、音乐)来生成同步的口型、表情或舞蹈动作。

为了让模型能够理解和处理人体,这些输入通常需要被转换为特定的数据表征,如2D/3D骨架关键点、SMPL/FLAME等参数化模型、深度图、法线图等。

阶段二:动作规划 (Motion Planning)

这是连接输入和生成的桥梁。该阶段的目标是将输入信号转化为具体的、可执行的动作序列。论文将动作规划分为两种主要方式:

特征映射: 传统的端到端方法,通过神经网络直接学习从输入特征到输出动作的映射关系。

LLM作为动作规划器: 这是本次综述的亮点。利用LLM强大的理解和推理能力,可以解释复杂的、带有情感和上下文的指令,生成更精细、更自然的动作描述,然后再驱动生成模型。例如,InstructAvatar就利用GPT-4来生成与音频同步的、富有表现力的动态视频。

阶段三:动作视频生成 (Motion Video Generation)

这是整个流程的核心,负责将规划好的动作序列“渲染”成最终的视频。论文详细梳理了不同模态驱动下的主流任务和技术,并重点关注了基于Diffusion的生成框架。

视觉驱动: 包括人像动画(Portrait Animation)、舞蹈视频生成(Dance Video Generation)和虚拟试穿(Virtual Try-On)等。Animate Anyone、MagicAnimate等里程碑式的工作展示了如何通过姿态序列精确控制角色动作。

文本驱动: 包括Text2Face(文本生成人脸表情)和Text2MotionVideo(文本生成全身动作)。

音频驱动: 这是应用最广泛的领域之一,包括口型同步(Lip Synchronization)、头部姿态驱动(Head Pose Driving)以及全身舞蹈生成等。VASA-1, EMO等模型在这一领域取得了惊人的效果。

视频驱动和姿势驱动舞蹈视频生成研究综述肖像动画最新发展的详细回顾嘴唇同步和头部姿势驱动的全面概述音频驱动的整体人类驾驶和细粒度动画方法的全面概述阶段四 & 五:精细化与输出 (Refinement & Output)精细化: 生成的初步视频往往存在瑕疵,如“鬼手”、面部扭曲、背景不一致等。精细化阶段通过专门的修复模型(如手部修复、面部增强)或通用的视频增强技术来提升视频质量。

输出: 最终阶段关注实际部署,包括模型加速、降低计算成本、实现实时交互等,这是将技术推向实际应用的关键。

技术发展脉络与趋势

论文通过时间线清晰地展示了三大模态驱动技术的发展历程,从早期的GAN和自回归模型,到如今由Diffusion模型主导的时代,技术迭代速度惊人。

挑战与未来展望

尽管取得了巨大进展,人类动作视频生成仍面临诸多挑战:

数据稀缺: 高质量、多样化的3D人体动作数据集仍然不足。

照片级真实感: 生成视频在细节(如手部、牙齿)和物理真实感上仍有欠缺。

时序一致性: 在长视频中保持身份、外观和背景的一致性极具挑战。

可控性与时长: 当前模型多生成短片,如何生成可控的长视频是未来的重要方向。

实时性与成本: 扩散模型等计算成本高昂,实现低延迟、低成本的实时交互是工业界应用的关键。

写在最后

这篇发表于TPAMI的综述为“人类动作视频生成”这一热门领域建立了一个全面而系统的知识框架。其提出的“五阶段流水线”清晰地梳理了从输入到输出的全过程,并前瞻性地探讨了LLM在动作规划中的核心作用,为后续研究指明了方向。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人类动作视频生成 AI 计算机视觉 综述 LLM Human Motion Video Generation AI Computer Vision Survey LLM
相关文章