掘金 人工智能 09月03日
阿里腾讯发布AI音视频生成新模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国科技巨头阿里巴巴和腾讯近期在AI驱动的视频和音频内容创作领域取得了显著进展,并发布了多项创新开源模型。阿里巴巴的Wan2.2-S2V模型能够仅凭一张图片和一段音频生成电影级数字人视频,其亮点在于长时稳定生成、影院级音画同步以及高级动作控制。腾讯混元推出的HunyuanVideo-Foley模型则解决了视频“有画面无声音”的痛点,能为视频自动匹配电影级音效,其创新之处在于高质量数据集、双流多模态架构以及专业级生成质量。此外,腾讯ARC实验室的AudioStory技术能够将文本描述转化为复杂、电影级的叙事音频,实现了AI在创意表达和艺术化叙事方面的飞跃。

🌟 阿里巴巴Wan2.2-S2V模型:该模型基于通义万相视频生成基础模型,能够根据一张图片和一段音频生成具有逼真面部表情、口型高度一致且动作流畅的数字人视频。其核心优势在于能够实现长时稳定生成(可达分钟级),提供影院级音画同步效果,并支持基于指令的高级动作与环境控制,显著提升了视频的自然度和流畅性。模型通过混合并行训练和层次化帧压缩技术,有效扩展了参考帧长度,支持多分辨率训练与推理,进一步完善了阿里巴巴在AI视频生成领域的“全家桶”产品线。

🎵 腾讯混元HunyuanVideo-Foley模型:该模型专注于解决AI视频生成中的“有画面无声音”问题,能够通过输入视频和文本为视频自动匹配电影级音效。其创新之处在于构建了大规模高质量的TV2A(文本-视频-音频)数据集,显著提升了泛化能力;采用了创新的双流多模态扩散变换器(MMDiT)架构,有效平衡文本和视频语义,生成层次丰富的复合音效;并引入了表征对齐(REPA)损失函数,确保了专业级的音频生成质量和稳定性。该模型在多项评测基准上达到了新的SOTA水平,为内容创作者提供了高效生成场景化音效的解决方案。

📚 腾讯ARC实验室AudioStory技术:这项技术实现了AI从文本描述生成复杂、电影级的叙事音频,超越了传统模型仅能生成单一音效的局限。其核心创新在于融合了大型语言模型(LLM)与文生音频系统,能够深刻理解复杂文本语义;采用“分而治之”策略,将复杂叙事分解为有序的音频事件,并配备详细的时间、情绪和场景指令,确保音频的逻辑性和连贯性;利用“解耦式连接机制”通过语义令牌和残差令牌捕捉细微音频质感,保证了音频的连贯性和细节表现。该技术为AI有声书、智能播客和沉浸式游戏音效等领域带来了新的可能性。

欢迎关注微信公众号:科技洞察者 📌

AI 驱动的视频和音频内容创作正迎来爆发式增长,中国科技巨头阿里巴巴和腾讯的最新开源模型,正共同定义这一领域的全新范式。

视频生成:从图像到电影级叙事

阿里巴巴 Wan2.2-S2V:音频驱动的“通义时刻”

阿里巴巴已开源其 14B 音频驱动视频模型 Wan2.2-S2V,标志着 AI 视频生成领域的又一个“通义时刻”。

这款模型仅需一张图片和一段音频,便能生成具有自然面部表情、口型高度一致且动作流畅的电影级数字人视频。

它的核心亮点在于:

Wan2.2-S2V 基于通义万相视频生成基础模型,通过超过 60 万个音视频片段的混合并行训练构建。

它巧妙融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,并引入 AdaIN+CrossAttention 机制确保音画同步。

为实现长视频生成,模型采用层次化帧压缩技术,将历史参考帧长度扩展至 73 帧,同时支持多分辨率训练和推理以适应不同视频场景。

该模型的发布,无疑让阿里巴巴通义的视频生成“全家桶”更为完善,其模型家族在开源社区和第三方平台下载量已超 2000 万,进一步巩固了其在 AI 视频生成领域的领先地位。

官网:wan.video/

主页:humanaigc.github.io/wan-s2v-web…

论文:arxiv.org/html/2508.1…

GitHub:github.com/Wan-Video/W…

HuggingFace:huggingface.co/Wan-AI/Wan2…

魔搭社区:www.modelscope.cn/models/Wan-…

音效补全:让 AI 视频“声”临其境

腾讯混元 HunyuanVideo-Foley:告别“有画面无声音”

在 AI 视频生成领域,一个长期存在的痛点是“有画面无声音”。腾讯混元开源的端到端视频音效生成模型 HunyuanVideo-Foley,正是为此而来。该模型能通过输入视频和文本,为视频自动匹配电影级音效,彻底打破了这一壁垒。

HunyuanVideo-Foley 解决了现有音频生成技术的三大难题:

HunyuanVideo-Foley 在多项权威评测基准上均达到了新的 SOTA 水平,其音频质量、视觉语义对齐和时序对齐指标均表现出色,并在主观评测中获得接近专业水准的高分。

该模型的开源为多模态 AI 在内容创作领域的应用提供了可复用的技术范式,将极大赋能短视频创作者、电影制作团队和游戏开发者,帮助他们高效生成场景化音效、完成环境音设计和构建沉浸式听觉体验。

官网:hunyuan.tencent.com/video/zh?ta…

主页:szczesnys.github.io/hunyuanvide…

论文:arxiv.org/abs/2508.16…

GitHub:github.com/Tencent-Hun…

HuggingFace:huggingface.co/tencent/Hun…

叙事音频:文本到复杂声景的飞跃

腾讯 ARC 实验室 AudioStory:AI 有声书与沉浸式体验的基石

腾讯 ARC 实验室推出的 AudioStory 技术,代表着 AI 音频生成领域的又一重大突破。它使机器能够从文本描述中生成复杂、电影级的叙事音频,超越了传统模型仅能生成单一音效的局限。

这项技术旨在将文本描述转化为丰富而有层次的听觉体验,如同为故事配上电影原声。

AudioStory 的核心创新在于:

经过三阶段渐进式训练,AudioStory 在 AudioStory-10K 基准数据集上展现出卓越的指令遵循能力、音频质量和一致性,性能全面超越现有竞品。

这项技术具有广泛的应用前景,包括自动为视频配音,以及智能推断并续写音频场景等,为 AI 有声书、智能播客和沉浸式游戏音效等领域铺平了道路,标志着 AI 在创意表达和艺术化叙事方面实现了质的飞跃。

论文:arxiv.org/pdf/2508.20…

GitHub:github.com/TencentARC/…

🔥往期推荐:

如果对你有帮助的话,请点赞、分享。关注微信公众号 科技洞察者,第一时间获取 前沿科技讯息,还有 数字人播客、演示视频 等丰富内容,我们下期再见。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频生成 AI音频生成 阿里巴巴 腾讯 开源模型 数字人 音效 叙事音频 Wan2.2-S2V HunyuanVideo-Foley AudioStory AI Technology Open Source Video Generation Audio Generation Alibaba Tencent
相关文章