Cartesia发布Sonic-3语音模型，英伟达参投获1亿美元融资

前天 22:54

Cartesia公司发布了其全新的语音模型Sonic-3，并宣布完成1亿美元融资，英伟达参与了本轮投资。Sonic-3基于非Transformer的SSM架构，专为实时对话和语音交互设计，展现出极快的响应速度和高度的自然流畅性，尤其在英文语音生成方面表现出色。该模型支持42种语言、500多种音色，并能进行精细的音量、语速和情绪控制，甚至支持语音克隆。Cartesia由斯坦福AI实验室研究员创立，其SSM技术在语音生成和识别领域具有显著优势，已获得多家企业青睐，有望革新实时语音模型赛道。

🚀 **Sonic-3语音模型发布与融资**：Cartesia推出了名为Sonic-3的全新语音模型，并宣布成功完成1亿美元融资，英伟达是本轮的投资者之一。这一消息标志着Cartesia在语音技术领域迈出了重要一步，也显示了资本市场对其技术潜力的认可。

💡 **SSM架构的创新优势**：与主流的Transformer架构不同，Sonic-3采用了基于SSM（状态空间模型）的架构。这种架构更接近人类的思维模式，能够持续理解对话内容，无需反复回顾，从而实现了低延迟、高精度的序列预测。这使得Sonic-3在实时对话和语音交互应用中表现出色，响应速度快且语音生成自然。

🗣️ **多语言支持与个性化定制**：Sonic-3在语言支持和音色多样性方面进行了大幅提升，现已支持42种语言和超过500种音色，包括10种中文声音类型和11种不同口音的英文。此外，该模型还支持通过API参数和SSML标签对音量、语速和情绪进行精细控制，并能捕捉细微的情感转换，甚至支持语音克隆和微调，以实现更逼真的声音还原。

⏱️ **卓越的响应速度与应用前景**：Sonic-3的模型延迟低至90毫秒，端到端总响应时间在190毫秒以内，被誉为全球最快的实时语音AI系统之一。其高效自然的语音生成能力，使其能够为企业构建具备复杂任务处理能力的语音Agent，例如客户支持、日程安排等，为实时语音交互领域带来了革新性的解决方案。

原创王欣逸 2025-11-03 21:03 浙江

Cartesia推出了全新的Sonic-3语音模型。

编译 | 王欣逸

编辑 | 程茜

智东西11月3日消息，10月29日，美国语音生成创企Cartesia创始人兼首席执行官Karan Goel在社交平台X上宣布推出全新的语音模型Sonic-3，同时还披露其已完成1亿美元（约合人民币7.12亿元）融资，英伟达参投。

Cartesia创立于2023年，由5位斯坦福AI实验室研究员创立，其中Chris Ré是他们导师、Albert Gu、Brandon Yang是华人。值得一提的是，Cartesia首席科学家兼联合创始人Albert Gu是Mamba作者之一，而另一位华人Brandon Yang曾在谷歌大脑团队工作。

▲Cartesia创始人团队，从左到右依次为：Brandon Yang、Karan Goel、Albert Gu和Arjun Desai（图源：Cartesia）

此前，Cartesia曾在2024年12月获得Index Ventures领投的2700万美元（约合人民币1.92亿元）种子轮融资，仅过去不到3个月，2025 年 3 月，Cartesia就宣布完成了6400万美元（约合人民币4.56亿元）的A轮融资。

外媒AIM Media House称，Cartesia提供了基于SSM（状态空间模型）架构的语音生成和语音识别模型，Sonic-3采用的是非Transformer架构，适用于实时对话和语音交互应用。

目前，包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。

智东西第一时间对 Sonic-3进行了实测。智东西让Sonic-3用中文讲一个故事，Sonic-3只用了两秒就生成播放了音频，不过Sonic-3说中文的流畅度还有待提升。

智东西又让其用英文随机念了一段纪录片旁白，相比于中文，英文则相当流畅自然，几乎听不出来是AI生成的。

01.

斯坦福全明星阵容

Mamba作者也上了

斯坦福AI实验室对多年来的SSM研究成果进行了转化，创办了Cartesia。

Cartesia联合创始团队相识于斯坦福，由两位华人、两位印度人及他们的共同导师组成。在校期间，他们便发明了SSM，用于训练更高质量、更高效的大模型。

Cartesia首席科学家兼联合创始人Albert Gu是Mamba的主要作者之一。相比传统Transformer模型，Mamba的SSM模型则实现了低延迟、高精度的序列预测。同时Albert Gu还入选了2024年《时代》杂志全球最具影响力人物名单。

Cartesia CEO兼联合创始人Karan Goel博士毕业于斯坦福大学，在卡内基梅隆大学攻读硕士期间曾获得Siebel Scholar奖学金，在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛·布伦斯基尔、斯坦福以人为本AI研究中心主任李飞飞等许多杰出教授的指导。

过去四年，Cartesia团队积极构建SSM背后的理论，并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态，取得了最先进的成果。基于在斯坦福对SSM的研究，创始团队一开始就瞄准了SSM架构和语音模型。

Cartesia为用户提供了一个企业级AI语音平台，用户在该平台上可以使用语音与文本转换的模型——文本转语音模型Sonic和语音转文本模型Ink，还可以构建语音Agent。

02.

配备42种语言和自定义发音

响应速度不到0.2s

Cartesia公司的发展节奏相当之快，伴随着Cartesia拿到最新的一轮融资，该公司推出了全新的Sonic-3模型。

Sonic-3模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的42种语言和500多种音色进行文本转语音功能，在Sonic-2的15种语言的基础上大大增加。

▲Cartesia可支持语言（图源：Cartesia）

在Sonic-3语音库里，共有10种中文声音类型可供选择，而配备较多的英文语音还更细地分成了11种不同地区的口音。

▲拥有11种口音的英文（图源：Cartesia）

在可控性上，该模型不仅能进行基本的语音生成，还能够通过API参数和SSML标签对音量、语速和情绪进行精细控制，能精准捕捉人的情绪，包括笑声、语调及微妙的情感转换等，支持自定义发音。

Sonic-3的模型延迟仅为90毫秒，端到端总响应时间在190毫秒以内，外媒AIM Media House称该模型已跻身全球最快的实时语音AI系统之列。

Sonic-3还支持语音克隆的功能，并支持微调使其更还原参考原声。此外，新模型还能对生成的语音进行自动缓冲与延续，这意味着，实时语音处理将变得更加高效与自然。

▲语音克隆（图源：Cartesia）

与大多数依赖Transformer架构的语音模型不同，Sonic-3基于SSM架构。基于Transformer架构的模型会通过重新回顾先前对话来预测下一个词，从而导致语音生成的延迟与低效。而SSM（例如S4和Mamba等创新技术）更接近人类思维模式，它们能够持续理解主题和对话，无需从头开始回顾所有内容，这使得Sonic-3能够生成既自然又快速的语音。

利用Sonic模型，Cartesia的平台可以帮助企业构建具备复杂任务处理能力的语音Agent，包括客户支持、日程安排，甚至轻松愉快的恶作剧等。

▲创建个性化Agent（图源：Cartesia）

03.

结语：Cartesia要革新实时语音模型赛道

在AI音频生成赛道上，不乏有MiniMax、Genspark、ElevenLabs等强劲的竞争对手。伴随着Cartesia获得新一轮融资，Sonic-3新模型投入使用，语音模型赛道竞争更加激烈。

ServiceNow产品副总裁Ravi Krishnamurthy称：“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”

近几年，Cartesia一直朝着SSM架构努力，随着实时对话需求的急剧增长，这一技术或将为企业和其他用户提供更为精准、快速的解决方案。

来源：AIM Media House

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

2025中国具身智能机器人大会预告