IT之家 09月12日
小米发布ZipVoice语音合成模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米集团AI实验室推出基于Flow Matching架构的ZipVoice系列语音合成模型,包括ZipVoice和ZipVoice-Dialog。ZipVoice解决了零样本语音合成模型的参数量大、合成速度慢问题,ZipVoice-Dialog则提升了对话语音合成的稳定性和推理速度。模型采用Zipformer架构,在轻量化建模和推理加速上取得突破,性能达到零样本语音合成SOTA水平,为语音交互应用提供新方案。

🔍 ZipVoice采用Flow Matching架构,首次将Zipformer架构引入TTS任务,通过基于U-Net的多尺度高效率结构、卷积与注意力机制的协同处理、注意力权重的多次复用,高度适配语音合成任务,实现高效建模。

🚀 在性能方面,ZipVoice和ZipVoice-Distill在参数量减少约63%的同时,在说话人相似度(SIM-o)、词错误率(WER)和UTMOS等客观指标,以及CMOS、SMOS等主观指标上达到零样本语音合成模型的SOTA水平。

💡 ZipVoice具备低参数量、高推理速度、高语音质量三大优点,ZipVoice-Dialog则提供又快又稳又好的对话语音合成方案,为轻量化、高速度要求的语音交互应用场景提供新解决方案。

🌐 小米表示将持续优化ZipVoice系列模型,致力于让每个人都能享受到低成本高质量的语音合成技术,模型文件、训练代码和推理代码已全部开源,促进技术共享。

IT之家 9 月 12 日消息,小米集团 AI 实验室今日宣布,旗下 Kaldi 团队上个月发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成(TTS)模型,包括:

据官方介绍,作为 zipformer 在语音生成任务上的应用和探索,ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。

ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。

IT之家从小米官方获悉,ZipVoice 首次将原本为自动语音识别(ASR)设计的 Zipformer 架构引入 TTS 任务作为模型的骨干网络,Zipformer 中的三大设计基于 U-Net 的多尺度高效率结构、卷积与注意力机制的协同处理、以及注意力权重的多次复用都高度适配语音合成任务,从而实现了语音合成模型的高效建模。

得益于这一设计,相比基于 DiT 的语音合成模型,在性能相似的情况下,ZipVoice 的参数量减少了约 63%。

性能方面,ZipVoice 和 ZipVoice-Distill 在具备更小参数量和更快推理速度的同时,在三个客观指标,即说话人相似度(SIM-o)、词错误率(WER)和 UTMOS,以及两个主观指标(CMOS、SMOS)上都极具竞争力,达到了零样本语音合成模型的 SOTA 性能水平,同时显著减少了模型参数量,加快了推理速度。

小米官方表示,ZipVoice 零样本语音合成模型具备了低参数量、高推理速度、高语音质量三大优点,ZipVoice-Dialog 提供了又快又稳又好的对话语音合成新方案。ZipVoice 系列模型为轻量化、高速度要求的语音交互应用场景提供了新的解决方案。

此外,小米表示未来团队将持续对 ZipVoice 系列模型进行优化,致力于让每一个人都能享受到低成本高质量的语音合成技术。

参考地址:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米 ZipVoice 语音合成 AI实验室 Flow Matching Zipformer TTS模型
相关文章