小米正式发布并开源了其声音理解大模型MiDashengLM-7B,这是小米“人车家全生态”战略的关键技术组成部分。该模型能够统一理解语音、环境声和音乐,不仅能识别周围事件,还能洞察其深层含义,极大地提升了用户场景理解的泛化能力。MiDashengLM的应用前景广阔,例如为用户唱歌或外语学习提供发音反馈和定制化提升方案,或在驾驶过程中实时解答用户关于环境声音的疑问。模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker解码器构建,通过通用音频描述训练策略实现对各类声音的统一理解。训练数据全部来自公开数据集,涵盖110万小时资源,并以Apache License 2.0协议开源,支持学术和商业用途。
🌟 **统一跨领域声音理解能力**:MiDashengLM-7B模型能够整合语音、环境声和音乐的理解,实现对用户周围事件的全面感知,并能进一步分析这些事件的隐藏含义,从而大幅提升场景理解的泛化性。这使得模型能够提供更智能、更人性化的交互体验,例如在用户练习唱歌或外语时提供精准的发音反馈和个性化的提升计划。
🚀 **卓越的性能表现与推理效率**:该模型在22个公开评测集上刷新了多模态大模型的最佳成绩(SOTA),特别在音频描述、声音理解和音频问答任务中表现突出,同时具备可用的语音识别能力。其音频编码器Xiaomi Dasheng在X-ARES Benchmark等关键任务上,尤其是在非语音类理解方面,显著优于Whisper。此外,MiDashengLM在推理效率方面也表现出色,首Token延迟仅为业界先进模型的1/4,同等显存下的数据吞吐效率是先进模型的20倍以上,大大提高了实际应用中的响应速度和处理能力。
💡 **创新的训练范式与数据利用**:MiDashengLM-7B采用了通用音频描述对齐范式,通过非单调全局语义映射来学习音频场景的深层语义关联,这种方式有效避免了传统ASR转录数据对齐的局限性。这种训练方法不仅提高了数据利用率,还能捕捉到说话人的情感、空间混响等更为细致的声学特征,为声音理解带来了更深层次的洞察力。
📜 **广泛的开源应用与生态赋能**:MiDashengLM-7B模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker自回归解码器构建,训练数据全部来自公开数据集,并以Apache License 2.0协议开源。这意味着该模型支持学术研究和商业应用,能够广泛赋能智能座舱、智能家居等多种场景,推动多模态交互体验的全面升级,是小米“人车家全生态”战略的重要技术支撑。
快科技8月4日消息,小米正式发布并开源声音理解大模型MiDashengLM-7B,该模型是小米“人车家全生态”战略的关键技术组件。
MiDashengLM通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

基于MiDashengLM的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈,比如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又比如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答,其应用场景有广阔的空间。
结合高效的推理部署性能,MiDashengLM将广泛赋能智能座舱、智能家居等场景,推动多模态交互体验升级。

基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker自回归解码器构建,通过通用音频描述训练策略,实现对语音、环境声音和音乐的统一理解。
训练数据100%来自公开数据集,涵盖五大类110万小时资源,以Apache License 2.0协议发布,支持学术和商业应用。

核心优势:
性能领先:在22个公开评测集上刷新多模态大模型最好成绩(SOTA),在音频描述、声音理解、音频问答任务中表现突出,同时具备可用的语音识别能力。其音频编码器Xiaomi Dasheng在X-ARES Benchmark多项关键任务,尤其是非语音类理解任务上显著优于Whisper。
推理效率高:单样本推理的首Token延迟(TTFT)仅为业界先进模型的1/4;同等显存下数据吞吐效率是业界先进模型的20倍以上,80GB GPU上处理30秒音频并生成100个token时,batch size可达512,而同类模型在batch size 16时即显存溢出。
训练范式革新:采用通用音频描述对齐范式,通过非单调全局语义映射,学习音频场景深层语义关联,避免传统ASR转录数据对齐的局限,数据利用率高,还能捕捉说话人情感、空间混响等关键声学特征。
