前天 22:54
Cartesia发布Sonic-3语音模型,英伟达参投获1亿美元融资
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cartesia公司发布了其全新的语音模型Sonic-3,并宣布完成1亿美元融资,英伟达参与了本轮投资。Sonic-3基于非Transformer的SSM架构,专为实时对话和语音交互设计,展现出极快的响应速度和高度的自然流畅性,尤其在英文语音生成方面表现出色。该模型支持42种语言、500多种音色,并能进行精细的音量、语速和情绪控制,甚至支持语音克隆。Cartesia由斯坦福AI实验室研究员创立,其SSM技术在语音生成和识别领域具有显著优势,已获得多家企业青睐,有望革新实时语音模型赛道。

🚀 **Sonic-3语音模型发布与融资**:Cartesia推出了名为Sonic-3的全新语音模型,并宣布成功完成1亿美元融资,英伟达是本轮的投资者之一。这一消息标志着Cartesia在语音技术领域迈出了重要一步,也显示了资本市场对其技术潜力的认可。

💡 **SSM架构的创新优势**:与主流的Transformer架构不同,Sonic-3采用了基于SSM(状态空间模型)的架构。这种架构更接近人类的思维模式,能够持续理解对话内容,无需反复回顾,从而实现了低延迟、高精度的序列预测。这使得Sonic-3在实时对话和语音交互应用中表现出色,响应速度快且语音生成自然。

🗣️ **多语言支持与个性化定制**:Sonic-3在语言支持和音色多样性方面进行了大幅提升,现已支持42种语言和超过500种音色,包括10种中文声音类型和11种不同口音的英文。此外,该模型还支持通过API参数和SSML标签对音量、语速和情绪进行精细控制,并能捕捉细微的情感转换,甚至支持语音克隆和微调,以实现更逼真的声音还原。

⏱️ **卓越的响应速度与应用前景**:Sonic-3的模型延迟低至90毫秒,端到端总响应时间在190毫秒以内,被誉为全球最快的实时语音AI系统之一。其高效自然的语音生成能力,使其能够为企业构建具备复杂任务处理能力的语音Agent,例如客户支持、日程安排等,为实时语音交互领域带来了革新性的解决方案。

原创 王欣逸 2025-11-03 21:03 浙江

Cartesia推出了全新的Sonic-3语音模型。

编译 |  王欣逸

编辑 |  程茜

智东西11月3日消息,10月29日美国语音生成创企Cartesia创始人兼首席执行官Karan Goel在社交平台X上宣布推出全新的语音模型Sonic-3,同时还披露其已完成1亿美元(约合人民币7.12亿元)融资,英伟达参投。

Cartesia创立于2023年,由5位斯坦福AI实验室研究员创立,其中Chris Ré是他们导师、Albert Gu、Brandon Yang是华人。值得一提的是,Cartesia首席科学家兼联合创始人Albert Gu是Mamba作者之一,而另一位华人Brandon Yang曾在谷歌大脑团队工作

▲Cartesia创始人团队,从左到右依次为:Brandon Yang、Karan Goel、Albert Gu和Arjun Desai(图源:Cartesia)

此前,Cartesia曾在2024年12月获得Index Ventures领投的2700万美元(约合人民币1.92亿元)种子轮融资,仅过去不到3个月,2025 年 3 月,Cartesia就宣布完成了6400万美元(约合人民币4.56亿元)的A轮融资。

外媒AIM Media House称,Cartesia提供了基于SSM(状态空间模型)架构的语音生成和语音识别模型,Sonic-3采用的是非Transformer架构,适用于实时对话和语音交互应用。

目前,包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。

智东西第一时间对 Sonic-3进行了实测。智东西让Sonic-3用中文讲一个故事,Sonic-3只用了两秒就生成播放了音频,不过Sonic-3说中文的流畅度还有待提升。

智东西又让其用英文随机念了一段纪录片旁白,相比于中文,英文则相当流畅自然,几乎听不出来是AI生成的。

01.

斯坦福全明星阵容

Mamba作者也上了

斯坦福AI实验室对多年来的SSM研究成果进行了转化,创办了Cartesia。

Cartesia联合创始团队相识于斯坦福,由两位华人、两位印度人及他们的共同导师组成。在校期间,他们便发明了SSM,用于训练更高质量、更高效的大模型。

Cartesia首席科学家兼联合创始人Albert Gu是Mamba的主要作者之一。相比传统Transformer模型,Mamba的SSM模型则实现了低延迟、高精度的序列预测。同时Albert Gu还入选了2024年《时代》杂志全球最具影响力人物名单。

Cartesia CEO兼联合创始人Karan Goel博士毕业于斯坦福大学,在卡内基梅隆大学攻读硕士期间曾获得Siebel Scholar奖学金,在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛·布伦斯基尔、斯坦福以人为本AI研究中心主任李飞飞等许多杰出教授的指导。

过去四年,Cartesia团队积极构建SSM背后的理论,并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态,取得了最先进的成果。基于在斯坦福对SSM的研究,创始团队一开始就瞄准了SSM架构和语音模型。

Cartesia为用户提供了一个企业级AI语音平台,用户在该平台上可以使用语音与文本转换的模型——文本转语音模型Sonic和语音转文本模型Ink,还可以构建语音Agent。

02.

配备42种语言和自定义发音

响应速度不到0.2s

Cartesia公司的发展节奏相当之快,伴随着Cartesia拿到最新的一轮融资,该公司推出了全新的Sonic-3模型。

Sonic-3模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的42种语言500多种音色进行文本转语音功能,在Sonic-2的15种语言的基础上大大增加。

▲Cartesia可支持语言(图源:Cartesia)

在Sonic-3语音库里,共有10种中文声音类型可供选择,而配备较多的英文语音还更细地分成了11种不同地区的口音。

▲拥有11种口音的英文(图源:Cartesia)

在可控性上,该模型不仅能进行基本的语音生成,还能够通过API参数和SSML标签对音量、语速和情绪进行精细控制,能精准捕捉人的情绪,包括笑声、语调及微妙的情感转换等,支持自定义发音。

Sonic-3的模型延迟仅为90毫秒,端到端总响应时间在190毫秒以内,外媒AIM Media House称该模型已跻身全球最快的实时语音AI系统之列。

Sonic-3还支持语音克隆的功能,并支持微调使其更还原参考原声。此外,新模型还能对生成的语音进行自动缓冲与延续,这意味着,实时语音处理将变得更加高效与自然。

▲语音克隆(图源:Cartesia)

与大多数依赖Transformer架构的语音模型不同,Sonic-3基于SSM架构。基于Transformer架构的模型会通过重新回顾先前对话来预测下一个词,从而导致语音生成的延迟与低效。而SSM(例如S4和Mamba等创新技术)更接近人类思维模式,它们能够持续理解主题和对话,无需从头开始回顾所有内容,这使得Sonic-3能够生成既自然又快速的语音。

利用Sonic模型,Cartesia的平台可以帮助企业构建具备复杂任务处理能力的语音Agent,包括客户支持、日程安排,甚至轻松愉快的恶作剧等。

▲创建个性化Agent(图源:Cartesia)

03.

结语:Cartesia要革新实时语音模型赛道

在AI音频生成赛道上,不乏有MiniMax、Genspark、ElevenLabs等强劲的竞争对手。伴随着Cartesia获得新一轮融资,Sonic-3新模型投入使用,语音模型赛道竞争更加激烈。

ServiceNow产品副总裁Ravi Krishnamurthy称:“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”

近几年,Cartesia一直朝着SSM架构努力,随着实时对话需求的急剧增长,这一技术或将为企业和其他用户提供更为精准、快速的解决方案。

来源:AIM Media House

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

2025中国具身智能机器人大会预告


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cartesia Sonic-3 语音模型 SSM 人工智能 英伟达 融资 实时语音 Voice Model AI Funding Real-time Voice
相关文章