阿里腾讯发布AI音视频生成新模型

欢迎关注微信公众号：科技洞察者 📌

AI 驱动的视频和音频内容创作正迎来爆发式增长，中国科技巨头阿里巴巴和腾讯的最新开源模型，正共同定义这一领域的全新范式。

视频生成：从图像到电影级叙事

阿里巴巴 Wan2.2-S2V：音频驱动的“通义时刻”

阿里巴巴已开源其 14B 音频驱动视频模型 Wan2.2-S2V，标志着 AI 视频生成领域的又一个“通义时刻”。

这款模型仅需一张图片和一段音频，便能生成具有自然面部表情、口型高度一致且动作流畅的电影级数字人视频。

它的核心亮点在于：

长时稳定生成

影院级音画同步

高级动作控制

Wan2.2-S2V 基于通义万相视频生成基础模型，通过超过 60 万个音视频片段的混合并行训练构建。

它巧妙融合了文本引导的全局运动控制和音频驱动的细粒度局部运动，并引入 AdaIN+CrossAttention 机制确保音画同步。

为实现长视频生成，模型采用层次化帧压缩技术，将历史参考帧长度扩展至 73 帧，同时支持多分辨率训练和推理以适应不同视频场景。

该模型的发布，无疑让阿里巴巴通义的视频生成“全家桶”更为完善，其模型家族在开源社区和第三方平台下载量已超 2000 万，进一步巩固了其在 AI 视频生成领域的领先地位。

官网：wan.video/
主页：humanaigc.github.io/wan-s2v-web…
论文：arxiv.org/html/2508.1…
GitHub：github.com/Wan-Video/W…
HuggingFace：huggingface.co/Wan-AI/Wan2…
魔搭社区：www.modelscope.cn/models/Wan-…

音效补全：让 AI 视频“声”临其境

腾讯混元 HunyuanVideo-Foley：告别“有画面无声音”

在 AI 视频生成领域，一个长期存在的痛点是“有画面无声音”。腾讯混元开源的端到端视频音效生成模型 HunyuanVideo-Foley，正是为此而来。该模型能通过输入视频和文本，为视频自动匹配电影级音效，彻底打破了这一壁垒。

HunyuanVideo-Foley 解决了现有音频生成技术的三大难题：

高质量大规模数据集

创新双流多模态架构

专业级生成质量

HunyuanVideo-Foley 在多项权威评测基准上均达到了新的 SOTA 水平，其音频质量、视觉语义对齐和时序对齐指标均表现出色，并在主观评测中获得接近专业水准的高分。

该模型的开源为多模态 AI 在内容创作领域的应用提供了可复用的技术范式，将极大赋能短视频创作者、电影制作团队和游戏开发者，帮助他们高效生成场景化音效、完成环境音设计和构建沉浸式听觉体验。

官网：hunyuan.tencent.com/video/zh?ta…
主页：szczesnys.github.io/hunyuanvide…
论文：arxiv.org/abs/2508.16…
GitHub：github.com/Tencent-Hun…
HuggingFace：huggingface.co/tencent/Hun…