量子位 前天 17:02
语音AI公司Cartesia获融资并发布更逼真语音模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

语音AI初创公司Cartesia宣布完成1亿美元B轮融资,英伟达等参与投资。该公司由斯坦福AI Lab的Karan Goel创立,核心团队也多来自斯坦福。Cartesia专注于实时语音AI,其最新发布的Sonic-3语音模型基于状态空间模型(SSM)构建,相较于依赖Transformer架构的传统模型,Sonic-3能更准确捕捉情绪,表达笑声和语气变化,且响应速度更快,延迟仅90毫秒。此外,国内语音AI公司MiniMax也发布了新的语音模型,提升了响应速度和对多种语言及非标准文本的识别能力。语音模型的商业化变现在大模型领域表现突出。

🚀 Cartesia是一家由斯坦福AI Lab团队创立的语音AI公司,专注于开发实时、自然的语音生成技术,其核心团队包括Mamba架构的共同发明人。

💰 Cartesia近期完成1亿美元B轮融资,显示了资本市场对其技术和商业模式的认可,此轮融资将用于加速产品迭代和商业化进程。

🗣️ 最新发布的Sonic-3语音模型基于状态空间模型(SSM)构建,在捕捉情绪、表达自然语音特征以及响应速度方面均有显著提升,其端到端响应时间仅为190毫秒。

🧠 状态空间模型(SSM)的工作方式更接近人类大脑的思维模式,能够持续感知上下文,从而在多轮对话中实现更自然、更快速的响应,避免了传统Transformer模型需要重复遍历对话历史的问题。

🇨🇳 国内语音AI公司MiniMax也发布了新模型,主要提升了语音响应速度和对多种语言及复杂文本(如网址、邮箱等)的识别能力,反映出语音AI技术的快速发展和广泛应用前景。

关注前沿科技 2025-11-03 11:09 北京

这波是真把“边卷技术边收钱”这件事roll到极致了

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI

如果我不说,你能分清哪个是马斯克本人的声音吗?

大NO特NO!!!其实这俩都不是。。。

这段堪比“本尊”的语音,就出自语音AI公司Cartesia刚刚发布的语音模型Sonic-3

伴随新模型对外公布的还有新融资:

Cartesia披露完成1亿美元的B轮融资,投资方里英伟达赫然在列。

此外,这家公司之所以如此受关注,还跟其创始人密切相关。

其创始人、CEO是来自斯坦福AI Lab的印度天才少年Karan Goel ,之前就在状态空间模型(SSM)领域锋芒毕露了。

是时候认识认识Cartesia了~

融资+上新,两件大事一块来

Cartesia这家公司,开局就是典型硅谷精英剧本。

Cartesia的初始核心成员,清一色来自斯坦福AI实验室,妥妥的学术派大拿班底。

其中,Cartesia首席科学家和联合创始人Albert Gu还是一名华裔,也是是Mamba架构的共同发明人之一。

从左往右第三位为Albert Gu

其实,Cartesia从一开始没走主流圈子还在卷的Transformer老路,一上来就盯准了实时语音AI。

正因为一开始目标就定得足够明确,以至于公司成立后的发展节奏可以用两个字概括——

那就是:飞快…

Cartesia成立的第二年,就拿下了种子轮融资,同年推出首款核心产品:语音模型Sonic,生成跟真人一样自然、带情感的高质量语音。

今年又又又开始加速商业化和产品迭代,3月完成6400万美元的A轮融资,并发布了支持语音克隆与风格迁移的Sonic-2.0

这不刚刚,他们又从Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA那边筹钱,宣布完成了1亿美元的B轮融资。

从发布节奏到融资节奏,Cartesia基本把“边卷技术边收钱”这件事,执行到了极致了…

咱再回过头来看一眼这次跟融资一同发布的主角——Sonic-3

这代语音模型相较于前作,最大的升级在于两个字:更像人

它不仅能更准确地捕捉语言中的情绪波动,还能表达出笑声、语气起伏,以及那些微妙又真实的情感变化,而且响应非常快,不信你听:

与大多数依赖Transformer架构的语音AI不同,Sonic-3是基于状态空间模型(SSM)构建的。

传统Transformer的处理方式,是“反复回放”:每次生成回应前都要重新遍历所有对话历史,这种方式在多轮对话里既慢又容易“卡顿”。

而SSM更像人类大脑的思维模式,它能持续感知上下文和对话氛围,不需要每句话都从头再来一遍,AI回应的会更省力也更自然一些。

这也让Sonic-3在回应速度上也有了提升:Sonic-3模型延迟仅90毫秒,端到端响应时间只有190毫秒,几乎是当前速度最快的语音生成系统之一。

行了,照这趋势发展下去,开语音会的都不一定是真人了…

从斯坦福杀出的印度天才少年

Cartesia CEOKaran Goel目前人生履历完全可以拍成《三傻大闹宝莱坞·硅谷篇》。

他出身新德里一个做科研器材的老牌家族。

本科就读于印度理工学院德里分校,是印度最顶尖的工程院校之一,许多硅谷和印度创业者出自该校。

后来,又去卡内基梅隆大学计算机科学学院攻读了硕士学位,还获得了全球顶尖研究生才能拿到的Siebel Scholar奖学金。

随后直通斯坦福AI实验室,师从AI教父级人物Chris Ré

没错,就是那位用Snorkel开创“弱监督数据标注”方法、后来把其初创公司Lattice卖给苹果的技术大牛。

此外,Karan Goel在校期间就对SSM颇有研究,在斯坦福读博期间就和Albert Gu等同门一起发表和状态空间模型相关的论文。

也就是在那个时候,一群斯坦福PhD生决定把学术研究直接“变现”成产品。

包括Karan Goel在内的团队成员,将他们在斯坦福AI Lab研究的状态空间模型(SSM)架构打包进了后来的Cartesia公司。

你品,你细品,从斯坦福杀出、从论文里走出,再到1亿美元砸进来——Cartesia走过来的每一步真可谓是“步步为营”啊~

光国外热闹,咱这边的语音AI产品也没闲着。

就在今天,MiniMax也上了新活儿——语音模型MiniMax Speech 2.6发布了。

这次升级主打一个“又快又能说”:

响应延迟压缩到250ms以内,支持40多种语言和所有口音,还能准确识别网址、邮箱、金额、日期、电话号码等各种“非标准文本”。

简单来说就是,以后哪怕你口音重、说得快,还掺着报邮箱和支付宝账号,它也能一次性听明白、说清楚。

好好好。

照这么下去,估计以后AI不光能学人说话,还能用说快板的速度讲自己的创业融资故事了。(doge)

以及还有一个小问题,据说语音模型的商业化变现,目前在大模型领域可谓一枝独秀,你听说了吗?

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🏆 年度科技风向标「2025人工智能年度榜单」评选报名火热进行中!我们正在寻找AI+时代领航者 点击了解详情

❤️‍🔥 企业、产品、人物3大维度,共设立了5类奖项,欢迎企业报名参与 👇 

一键关注 👇 点亮星标

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

语音AI Cartesia Sonic-3 状态空间模型 融资
相关文章