面壁智能 09月25日
面壁智能推出高拟真语音生成模型VoxCPM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

面壁智能与清华大学深圳国际研究生院联合推出0.5B参数语音生成模型VoxCPM,在自然度、音色相似度及韵律方面达到SOTA水平。VoxCPM支持零样本声音克隆,可在GitHub、Hugging Face等平台开源使用,并提供线上体验平台。模型在Seed-TTS-EVAL等评测中表现优异,音色相似度尤其在Zero-shot音色克隆任务中展现顶尖性能。VoxCPM保持了卓越的推理效率,RTF≈0.17,支持流式输出,为高性能语音合成应用普及提供基础。

🔹 VoxCPM是一款由面壁智能与清华大学深圳国际研究生院联合研发的0.5B参数语音生成基座模型,在合成语音的自然度、音色相似度及韵律表现力方面均达到了业界领先水平。

🔹 VoxCPM支持零样本声音克隆,只需极少的数据即可生成个性化的独特声音,并在Seed-TTS-EVAL等权威语音合成评测榜单中取得了优异的成绩,尤其在音色相似度方面表现突出。

🔹 VoxCPM保持了卓越的推理效率,VoxCPM-0.5B在一张NVIDIA RTX 4090显卡上实现了RTF≈0.17的高效推理速度,且支持流式输出,为高性能语音合成应用的普及提供了基础。

🔹 VoxCPM不仅能生成自然度极高的语音,还能根据文本内容自主选择合适的声音、腔调、韵律风格,实现“声”临其境的听觉体验,并支持中英双语声音复刻。

🔹 VoxCPM的核心架构由局部音频编码模块、文本-语义语言模型、残差声学语言模型、局部扩散生成模块四大部分组成,采用融合层次化语言建模和局部扩散生成的端到端TTS方案,显著提升了语音生成的表现力与自然度。

面壁智能 2025-09-18 16:17 重庆

面向高拟真语音生成的新型端到端 TTS 模型

今天,我们隆重介绍面壁小钢炮新成员VoxCPM,一款 0.5B 参数尺寸的语音生成基座模型。该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发。

VoxCPM 在合成语音的自然度、音色相似度及韵律表现力方面均达到了 SOTA 水平。它不仅拥有高质量和丰富表现力的声线,更能实现零样本声音克隆,用极少的数据,生成属于你自己的独特声音。目前,VoxCPM 已在 GitHub、Hugging Face 等平台开源,也为开发者提供了易用的线上体验平台,欢迎大家使用。

 ➤  模型链接 

🔗 Github: 

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face:  

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope:  

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 PlayGround体验: 

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 音频样例页面地址: 

https://openbmb.github.io/VoxCPM-demopage

  01 SOTA 级性能表现

相似度、词错误率是评判语音模型的关键指标。VoxCPM 在 Seed-TTS-EVAL 等权威语音合成评测榜单中,均达到了业界 SOTA 水平。

在词错率方面,VoxCPM 在 Seed-TTS-EVAL 正常样本下达到极低水平,在困难样本上也取得不错表现。在音色相似度方面,尤其在 Zero-shot 音色克隆任务中,VoxCPM 同样展示出顶尖性能。

同时,VoxCPM 保持了卓越的推理效率,VoxCPM-0.5B 在一张 NVIDIA RTX 4090 显卡上实现了 RTF(Real-Time Factor)≈ 0.17 的高效推理速度,且理论支持流式输出,为不同场景下高性能语音合成应用的普及提供了基础。

RTF = 模型生成音频所花费的时间 / 生成音频的实际时长。数字越小,生成速度和效率越快。「RTF < 0.2」属于极好的推理水平,完全满足甚至远超高质量实时交互的需求,且成本及负载低。

  02 超拟人的听感

难辨真假的克隆音

得益于文本基座的强大能力和大规模的语音训练数据,VoxCPM 无论是文本理解和表达、极少样本的声音复刻、甚至公式及符号音频输出等能力,都展现了出色效果。实际听感上,VoxCPM 生成的语音在情绪、音色、口音、停顿、韵律等方面表现与真人无异。

VoxCPM 可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频,带来“声”临其境的听觉体验。比如,化身为天气预报员字正腔圆的播报、英雄将领战前慷慨激昂地演讲、甚至还可以模拟方言主播:

近日,陕西多地遭遇高温天气。7 月 15 日,全省有 8 个气象站最高气温突破历史极值,多地发布高温红色预警。16 日,多地高温持续,西安、宝鸡、咸阳、渭南、汉中、安康等地达 40℃ 以上。陕西省气象台预计,从 17 日开始,部分区域将出现分散性降雨,持续多日的高温晴热有望得到缓解。

We've traveled too far and sacrificed too much to turn back now. This is our last stand. Whatever happens here today, will be remembered for a thousand years. For glory!

我感觉说河南话不影响我的颜值啊,我自己听不出来,恁感觉呢,恁感觉说河南话影响我的颜值吗?恁感觉呢姐妹们。

VoxCPM 支持中英双语声音复刻,即使在极少的样本下,也可“原音重现”:

Joey: Rach, listen, have you ever heard of ModelBest's VoxCPM base model?

Rachel: No.

Joey: Actually, my dad helped build that model and he heard they have an opening. 

在中文语境下,VoxCPM 支持公式、符号音频合成(需关闭文本正则选项),如同数学小天才:

沸羊羊,我再问你,把-495°表示成 k×360°+θ 的形式,其中 k 是整数,则θ可以是多少?

VoxCPM 支持音素标记替换,实现自定义读音纠正(需关闭文本正则选项,中文为拼音,英文为 ARPAbet)

原文本:他一边看书,一边看门

修正发音后的文本:他一边看书,一边{kan1}门

  03 

高拟真的背后:

融合层次化语言建模和局部扩散生成的连续表征端到端 TTS 方案

VoxCPM 是一个端到端的扩散自回归语音生成模型,旨在从输入文本直接合成高质量的连续语音表征,并且支持流式地实时输出生成音频片段。

与当前 CosyVoice、FireRedTTS 及 SparkTTS 等普遍遵循将连续的语音信号转换为离散的声学词元(Speech token)序列进行处理的方法不同,VoxCPM 采用融合层次化语言建模局部扩散生成的端到端 TTS 方案。该模型以 MiniCPM 4.0 文本基座模型为基础进行初始化,通过引入有限标量约束构建结构化的中间表征,巧妙地实现了“语义-声学”生成过程的隐式解耦。此设计不仅显著提升了语音生成的表现力与自然度,也有效改善了生成的稳定性。

模型核心架构由局部音频编码模块 (LocEnc Module)、文本-语义语言模型 (Text-Semantic LM, TSLM)、残差声学语言模型 (Residual Acoustic LM, RALM)、局部扩散生成模块 (LocDiT Module) 四大模块组成,整个模型以端到端方式联合训练,通过最终 VAE 语音连续特征上的 Diffusion loss 优化上述所有模块。FSQ 层建立的“半离散”的中间表示作为一种结构性约束,隐式地引导 TSLM 和 RALM 分别专注于语义主干建模和声学细节细化,从而形成高效的分工协作。此外,系统还包含一个因果式 VAE 编解码器,用于将原始音频波形压缩至低帧率的隐空间,并将生成的语音表征重构回波形信号。

更多技术细节,请关注即将发布的 VoxCPM 技术报告。欢迎大家下载试用。


图片

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

面壁智能 VoxCPM 语音生成 端到端TTS 零样本声音克隆 高拟真语音
相关文章