微软发布自研语音及通用大模型 MAI-1

编辑：艾伦 KingHZ

就在OpenAI发布最新的语音大模型之际，微软掏出了自研语音大模型！

微软AI掌门人、DeepMind联合创始人Mustafa Suleyman正式宣布：

微软AI正式推出MAI-Voice-1以及MAI-1-预览版！而且还有更多内容即将推出。

MAI-Voice-1语音模型效率极高：单GPU秒出1分钟音频！使用Copilot即可体验。

在Mustafa Suleyman看来，这是他用过表现力最丰富、最自然的语音生成模型。

而MAI-1预览版模型是微软AI首个端到端内部训练的自研基础模型。

这标志着在多年依赖OpenAI模型之后，微软AI部门正式与OpenAI及整个行业正面竞争，也意味着微软在AI竞赛中，开始掌握更多主动权。

在接受采访时，Suleyman 表示：「微软是世界上最大的公司之一。我们必须具备内部能力，来打造世界最强的模型。」

MAI-Voice-1，究竟能力如何

在微软官方给出的指标中，最能引起我们注意的，是「单卡」。

这使其成为当前少见的极致低时延TTS/对话式语音生成系统之一。

除此之外，语音的自然和富有表现力也是重点，这覆盖到了单人叙述与多说话人对话两种常见内容形态。

新闻播报、播客对谈、故事讲述、冥想/引导等，你能想到的，统统没问题。

你可以选择9种不同的语音：

也可以选择多达31种不同的情绪和播报场景：

你还可以让模型扮演一个激情四射的体育解说员，点燃你的情绪：

具体到落地上，我们可以通过Copilot Labs，在Copilot Daily中以AI主播播报要闻、在Copilot Podcasts生成播客式讨论，Copilot Labs 提供可玩Demo（可以自定义内容、叙述风格等）。

下面是两段该模型生成的语音Demo，你可以听听看，满分5分想给几分？是否还有AI味呢？欢迎在评论区留下您的测评意见。

微软与OpenAI难舍难分

长期以来，微软主要依靠OpenAI的人工智能模型，为核心产品提供AI功能。

OpenAI目前估值约5000亿美元，微软一家的投资就超过了130亿美元，而OpenAI也依赖微软的云基础设施来运行其模型。

但现在宣布：「未来几周，我们将在Copilot的部分文本任务中逐步推出MAI-1-preview，以便从用户反馈中学习和改进。」

目前，微软仍在Bing、Windows 11及其他产品中使用OpenAI的模型。

但双方的关系日渐恶化。

去年，微软在年度财报中正式将OpenAI列入竞争对手名单，之前多年来只包含亚马逊、苹果、谷歌和 Meta等科技巨头。

近几个月，OpenAI也转向CoreWeave、谷歌和甲骨文等其他云服务商，以满足激增的算力需求。

与OpenAI同期发布语音模型，意欲何为

就在昨天，OpenAI也发布了最新的语音生成大模型GPT-Realtime，整体嵌入在Realtime API中。

该模型在语音自然性、情感丰富度、低延迟响应上显著提升，能够在一句话之内实现语调、语言的无缝切换，还支持工具调用、指令跟随能力。

为什么微软选择在此时发布新模型？

此次发布虽然只有语音模型和预览版通用模型，但释放出的信号不容忽视。

其一，语音将成为AI助手的重要战场。

MAI‑Voice‑1的效率和表达力有望推动语音助手晋级的「数字伙伴」。

而富有情感和个性的数字伙伴，是Grok等模型时下开始发力的一个新突破点，潜力颇大。

其二，OpenAI不再是唯一选择。

大模型发展进入「百模大战」阶段，各巨头纷纷推出自研产品。

微软此举既是对OpenAI合作的补充，也为自己与OpenAI的重大商业谈判中增加了可观的筹码。

其三，MoE架构成大模型新趋势。

MAI‑1‑preview采用MoE架构，训练规模适中但更关注指令遵循和响应效率，能兼顾性能与成本。

随着LLM细分应用增多，多专家模型将成为重要方向。

其四，生态开放值得期待。

微软表示将在Copilot及第三方测试平台开放模型，鼓励开发者提供反馈。

在媒体采访中，Mustafa Suleyman表示：

人工智能不仅是科技的未来，更是未来几十年商业运行和价值创造的核心。

因此，研发最强的模型，不仅是技术追求，更是微软作为企业的战略必然。

我们必须拥有自己的核心能力。

在14个月前，他和团队从Inflection加入微软后，就一直全力推动这件事。

如今，微软终于发布了两款自研模型。

Suleyman强调，微软未来会继续使用OpenAI的模型，也会用开源模型，但关键在于「编排器」（orchestrator）。

这是一种模型调度系统，能够根据任务自动选择合适的模型来完成特定请求，类似「路由器」。

他认为，这种编排能力将成为微软的重要知识产权。

外界普遍猜测，微软推出自研模型，是否意味着与OpenAI的关系在降温？

对此，Suleyman回应道：

我们的目标是进一步加深与OpenAI的合作，并保持长期良好的伙伴关系。

双方的合作已经非常成功，未来我相信仍会继续下去。

微软如何自研大模型

这次微软AI透露：「MAI-1-preview是MoE模型，使用约1.5万张NVIDIA H100 GPU进行了预训练和后训练。」

在LMArena文本任务榜单上，MAI-1排名第13，落后于DeepSeek、谷歌、OpenAI和xAI等主要AI玩家的模型。

相比之下，xAI的Grok模型则动用了超过10万张同类芯片。

微软AI只用相对小规模的集群，也能训练出非常强大的模型。

Suleyman认为自研的新模型表现远超其硬件规模，完全可以和世界上最强的模型媲美，而且现在才刚刚开始调优。

一旦模型投入实际应用并开始收集反馈，随着不断迭代，性能还会显著提升。

对微软AI来说，这仅仅是个开始。

微软AI算力充沛，已经在使用全球最大的数据中心之一，并配备了Nvidia下一代GB-200芯片，研发下一版本模型。

而且，他们有一个庞大的五年规划，并会持续投资算力。

规模很重要，但效率同样关键。

这意味着要精挑细选高质量的训练数据，确保每一次浮点运算、每一次GPU迭代都发挥最大价值。

现在训练模型的核心能力，已经越来越变成了一种「工艺」——选对数据，避免把算力浪费在无效的token上。

Suleyman 表示，公司利用了一些源自开源社区的技术，使得有限资源发挥了更大作用。

这是微软首次完整端到端训练的大模型。在研发过程中，团队也遇到了不少挑战。

Suleyman坦言：「构建这样规模的集群、训练如此庞大的数据，需要不断的调试、迭代和耐心。这是每一家实验室都会面临的难题。」

他对团队的表现非常满意：「我们从中学到了很多，也积累了足够的经验去打造更多优秀的模型。」

他把这比喻成「转动飞轮」：一旦模型研发进入正循环，每一代都会推动下一代更快成长。

之前，Suleyman在Inflection，甚至DeepMind都有相关经验，不过那时候算力规模较小，GPU还没有动辄十万张。

这次的首个模型训练成功，他认为关键在于文化：

优秀的文化吸引了优秀的人，是优秀的团队才能构建出优秀的模型。

而最终，这个团队的价值观，也会自然地被注入到模型和产品中。

Suleyman还透露他们已经在开发下一个模型了：规模更大，训练架构也做了一些新的调整。

现在一切都已经启动了，接下来几个月、几年里都会有很多值得期待的东西。

参考资料：

https://copilot.microsoft.com/labs/audio-expression

https://microsoft.ai/news/two-new-in-house-models/

https://x.com/mustafasuleyman/status/1961111770422186452

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签