小米今日宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,在语音领域首次实现了基于 ICL 的少样本泛化能力。该模型基于创新预训练架构和上亿小时训练数据,打破了现有语音大模型对标注数据的依赖瓶颈。Xiaomi-MiMo-Audio 在智商、情商、表现力与安全性等跨模态对齐能力上有所提升,并在自然度、情感表达和交互适配方面展现出拟人化水平。其核心创新包括首次证明了语音无损压缩预训练 Scaling 至 1 亿小时可涌现跨任务泛化性,以及首个明确语音生成式预训练的目标和开源完整的预训练方案。
🌟 **首个端到端语音大模型与ICL能力**: Xiaomi-MiMo-Audio 是小米推出的首个原生端到端语音大模型,其最大的亮点在于首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力。这意味着模型无需大量标注数据,仅通过少量示例就能适应新任务,极大地降低了数据需求,并朝着类人智能迈进。
💡 **创新预训练与海量数据驱动**: 该模型打破了传统语音大模型依赖大规模标注数据的瓶颈,采用了创新的预训练架构,并利用了上亿小时的训练数据。这种大规模、无监督的训练方式,使得模型在智商、情商、表现力及安全性等多个维度实现了跨模态对齐能力的提升,展现出更自然的语言表达和情感交互能力。
🚀 **关键技术突破与开源**: Xiaomi-MiMo-Audio 的核心创新在于:1. 首次证明了语音无损压缩预训练Scaling至1亿小时可“涌现”出跨任务的泛化性,即Few-Shot Learning能力。2. 明确了语音生成式预训练的目标和定义,并开源了一套完整的语音预训练方案,包括Tokenizer、模型结构、训练方法和评测体系。目前,预训练和微调模型已在Huggingface开源,Tokenizer模型在Github开源。
🔊 **拟人化交互体验**: 通过在大规模数据上的训练和创新的预训练方法,Xiaomi-MiMo-Audio 在自然度、情感表达以及交互适配性方面均达到了拟人化水准。这意味着模型能够更自然、更富有情感地与用户进行语音交流,提升用户体验。
IT之家 9 月 19 日消息,小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,首次在语音领域实现基于 ICL 的少样本泛化。
据小米介绍,五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练,获得 In-Context Learning(ICL,上下文学习)能力,而在语音领域,现有的大模型仍严重依赖大规模标注数据,难以适应新任务达到类人智能。
而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈,它基于创新预训练架构和上亿小时训练数据,在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升,在自然度、情感表达和交互适配方面呈现出拟人化水准。
这款模型的具体创新点如下:


目前小米已在 Huggingface 平台开源了这款模型的预训练、指令微调模型,同时在 Github 平台开源了 Tokenizer 模型,其参数量达 1.2B,基于 Transformer 架构,支持音频重建任务和音频转文本任务。