Paper Reading | MEMO：记忆引导扩散模型实现生动的Talking Head生成

2025-01-09 21:57 浙江

MEMO模型通过单一图片和音频输入，生成高逼真度、表现力强的人像视频，实现音频口型同步及自然面部表情动作。

项目主页：

https://memoavatar.github.io/

论文链接：

https://arxiv.org/abs/2412.04448

代码链接：

https://github.com/memoavatar/memo

模型链接：

https://www.modelscope.cn/models/ltzheng/memo

近期，来自Skywork AI、南洋理工大学、新加坡国立大学的研究团队发布了最新的视频生成模型MEMO，一经推出便在学术界和技术社区引起了广泛关注。MEMO能够仅通过一张图片和一段音频，生成逼真且富有表现力的人像视频，不仅在音频与口型同步方面表现出色，还能生成自然流畅的面部表情和动作，使得生成的视频栩栩如生，仿佛真人在表演。

MEMO模型采用了先进的扩散模型框架，不仅能够实现精准的音频与口型同步，还能够保持长时间的人物身份一致性，并生成与音频情感相匹配的自然表情动作。例如，人物在讲话时能够根据情绪节奏做出抬眉、皱眉、叹气等细微动作；在唱歌时，表情和动作更加生动自然，适应不同的音乐风格。

MEMO能够生成多种图像风格的输入，例如人像、雕塑、AI艺术、动画等

雕塑

画像

AI艺术

MEMO还支持不同音频类型的输入，包括演讲、唱歌、说唱等

演讲

唱歌

说唱

MEMO还具备多语言支持：例如英语、普通话、西班牙语、日语、韩语、粤语等

普通话

西班牙语