魔搭ModelScope社区 01月12日
Paper Reading | MEMO:记忆引导扩散模型实现生动的Talking Head生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MEMO是最新视频生成模型,由Skywork AI等团队发布。它通过单图和音频输入,生成高逼真度、表现力强的人像视频,实现音频口型同步及自然面部表情动作,在学术界和技术社区引起广泛关注。

🎥MEMO通过单图和音频生成逼真人像视频,音频口型同步,表情动作自然。

🌟采用先进扩散模型框架,保持人物身份一致,生成与音频情感匹配表情。

💻支持多种图像风格和音频类型输入,使用方便,一行代码可生成视频。

2025-01-09 21:57 浙江

MEMO模型通过单一图片和音频输入,生成高逼真度、表现力强的人像视频,实现音频口型同步及自然面部表情动作。

项目主页:

https://memoavatar.github.io/


论文链接:

https://arxiv.org/abs/2412.04448


代码链接:

https://github.com/memoavatar/memo


模型链接:

https://www.modelscope.cn/models/ltzheng/memo


近期,来自Skywork AI、南洋理工大学、新加坡国立大学的研究团队发布了最新的视频生成模型MEMO,一经推出便在学术界和技术社区引起了广泛关注。MEMO能够仅通过一张图片和一段音频,生成逼真且富有表现力的人像视频,不仅在音频与口型同步方面表现出色,还能生成自然流畅的面部表情和动作,使得生成的视频栩栩如生,仿佛真人在表演。


MEMO模型采用了先进的扩散模型框架,不仅能够实现精准的音频与口型同步,还能够保持长时间的人物身份一致性,并生成与音频情感相匹配的自然表情动作。例如,人物在讲话时能够根据情绪节奏做出抬眉、皱眉、叹气等细微动作;在唱歌时,表情和动作更加生动自然,适应不同的音乐风格。


MEMO能够生成多种图像风格的输入,例如人像、雕塑、AI艺术、动画等


雕塑

画像

AI艺术

MEMO还支持不同音频类型的输入,包括演讲、唱歌、说唱等


演讲

唱歌

说唱

MEMO还具备多语言支持:例如英语、普通话、西班牙语、日语、韩语、粤语等


普通话

西班牙语

韩语

更多丰富风格的展示,可移步 项目主页:https://memoavatar.github.io


MEMO技术方案



具体来说,MEMO是如何通过记忆引导和情感感知,实现如此生动的效果呢?


MEMO框架中,外观信息和音频信息分别通过专门设计的模块进行处理。在外观信息处理方面,MEMO引入了记忆引导的时序模块,通过存储长期的上下文信息,提升视频生成的身份一致性和动作流畅性。这一模块利用线性注意力机制,有效捕捉跨时间片段的时序信息,从而更好地建模人物的运动信息。



为了进一步提升效果,MEMO设计了情感感知的音频模块,取代了传统的交叉注意力机制,采用多模态注意力机制增强音频与视频的互动。同时,该模块能够从音频中检测情感,利用情感自适应层归一化技术,细化面部表情,使生成的视频不仅在技术上先进,在情感表达上也更加贴近真实。



MEMO使用起来也很方便,克隆仓库(https://github.com/memoavatar/memo)并按照README配好环境后,只需一行代码即可自动下载模型和生成视频。


点击阅读原文,即可跳转模型链接~




?点击关注ModelScope公众号获取

更多技术信息~


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MEMO模型 视频生成 人像视频 音频口型同步 自然表情动作
相关文章