小米技术 09月12日
小米发布MiDashengLM-7B模型,提升跨场景音频理解能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米发布了其最新的多模态大模型MiDashengLM-7B,该模型基于Xiaomi Dasheng声音基座模型和Qwen2.5-Omni-7B解码器,实现了对语音、环境声音和音乐的统一理解。MiDashengLM-7B在22个公开评测集上刷新了多模态大模型的最优性能(SOTA),并在推理效率上实现了显著提升,单样本推理的首Token延迟(TTFT)仅为业界先进模型的1/4。该模型采用创新的通用音频描述训练策略,能够处理更广泛的音频数据,并已在智能座舱、家居交互等场景实现超过30项落地应用。MiDashengLM-7B已根据Apache License 2.0协议全量开源,支持学术和商业应用,欢迎社区贡献。

🌟 **跨场景音频统一理解能力**: MiDashengLM-7B通过集成Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器,实现了对语音、环境声音和音乐的统一理解。该模型在音频描述、声音理解、音频问答等任务上表现出色,甚至具备可用的语音识别能力,在22个公开评测集上取得了多模态大模型的最优性能(SOTA)。

🚀 **卓越的推理效率**: MiDashengLM-7B在推理速度上实现了重大突破。在单样本推理模式下(batch size=1),其首Token预测时间(TTFT)仅为Qwen2.5-Omni-7B的1/4。在批处理模式下,其数据吞吐效率是业界先进模型的20倍以上,显著降低了计算成本并支持更高的并发量,这得益于Xiaomi Dasheng架构优化,将输出帧率大幅降低。

💡 **创新的通用音频描述训练范式**: MiDashengLM-7B摒弃了传统的仅关注语音内容的ASR转录数据对齐方式,采用了通用的音频描述对齐策略。这种方法通过非单调的全局语义映射,使得模型能够学习音频场景的深层语义关联,并能利用包括噪声和非语音内容在内的几乎所有数据,极大地提高了数据利用率,并能捕捉说话人情感、空间混响等关键声学特征。

🌐 **全栈开源生态与广泛应用**: MiDashengLM-7B的训练数据100%来自公开数据集,并已根据Apache License 2.0协议全量开源,支持学术和商业应用。该模型在小米的智能家居和汽车座舱等场景已有超过30项落地应用,如车外唤醒防御、异常声音监控等,未来将进一步推动多模态交互体验升级,赋能更多智能场景。

2025-08-04 10:38 北京

音频理解是构建全场景智能生态的关键领域,在智能座舱、家居交互等场景均有广泛应用,是小米“人车家全生态”战略的核心技术组件。2024 年,小米发布的 Xiaomi Dasheng(https://github.com/xiaomi/dasheng)声音基座模型在国际上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 环境声、语音、音乐三大领域建立领先优势并保持至今。2025 年 7 月,法国南特举行的 IEEE ICME 2025 Audio Encoder Capability Challenge 上,冠亚军队伍全部基于 Xiaomi Dasheng 作为提交方案。Xiaomi Dasheng 在小米的智能家居和汽车座舱等场景有超过 30 项落地应用。行业首发的车外唤醒防御、手机音箱全天候监控异常声音、“打个响指”环境音关联 IoT 控制能力,以及小米YU7 上搭载的增强哨兵模式划车检测等,背后都有 Xiaomi Dasheng 作为核心算法的赋能。

作为该模型的重要扩展,今天小米发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解,声音理解性能在22个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首 Token 延迟(TTFT)仅为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

MiDashengLM 的训练数据由 100% 的公开数据构成,模型以宽松的 Apache License 2.0 发布,同时支持学术和商业应用,并欢迎来自开源社区的代码合并请求。


01 

性能领先

跨场景音频理解能力


MiDashengLM 在音频描述、声音理解、音频问答任务中具备显著优势,同时具备可用的语音识别能力。


音频描述任务性能(FENSE 指标)


声音理解任务性能


语音识别任务性能(WER/CER 指标)


音频问答任务性能

Xiaomi Dasheng(https://github.com/xiaomi/dasheng)音频编码器是 MiDashengLM 的强大音频理解能力的重要来源。在用于评估编码器通用能力的 X-ARES Benchmark(https://arxiv.org/abs/2505.16369)上,Xiaomi Dasheng 在多项关键任务上,尤其是非语音类理解任务上显著优于作为 Qwen2.5-Omni、Kimi-Audio 等模型音频编码器的 Whisper。


音频编码器在 X-ARES Benchmark 上的分数对比

Xiaomi Dasheng 不仅在用于声音理解任务上的声音表征上体现压倒性优势,它还可以用于音频生成任务,如语音降噪、提取和增强。

Dasheng-denoiser(https://github.com/xiaomi-research/dasheng-denoiser)是小米近期已开源并将在荷兰鹿特丹召开的国际会议 Interspeech 2025 上展示的降噪模型,它使用 Xiaomi Dasheng 从带噪语音中提取音频嵌入向量,然后通过一个简单的降噪编码器网络模型对这些嵌入做降噪处理,最后利用声码器由降噪后的嵌入向量得到干净的语音。


 Dasheng-denoiser 降噪模型

02 

推理效率跃升

单样本 4 倍加速与百倍并发支持


MiDashengLM 的训练和推理效率是它的另一项重大优势。对于单个样本推理的情形,即 batch size 为 1 时,MiDashengLM 的首个 token 预测时间(TTFT)仅为 Qwen2.5-Omni-7B 的 1/4。

而当批次处理时,MiDashengLM 的优势更加明显,在 80GB GPU 上处理 30 秒音频并生成 100 个 token 的测试中,MiDashengLM 可以把 batch size 设置为 512,而 Qwen2.5-omni-7B 在 batch size 设置为 16 时即出现显存溢出(OOM)。

这种效率优势直接转化为实际部署效益,在同等硬件条件下可支持更多的并发请求量,降低计算成本。


Batch size = 1 时 TTFT 和 GMACS 指标对比


80G 显存环境下模型每秒可处理的 30s 音频个数

MiDashengLM 的高效性也和 Xiaomi Dasheng 密不可分。基于 Xiaomi Dasheng 架构的 MidashengLM 模型,在维持音频理解核心性能指标基本持平的前提下,通过优化音频编码器设计,成功将其输出帧率从 Qwen2.5-Omni 的 25Hz 大幅降至 5Hz(降幅达80%),显著降低了计算负载并实现了推理效率的显著提升。

03 
训练范式革新

从碎片化转录到全局语义刻画


MiDashengLM 采用创新的通用音频描述对齐范式,避免了用 ASR 转录数据对齐仅关注语音内容而丢弃环境声音和音乐信息,且无法捕捉说话人情感、空间混响等关键声学特征的局限,通用描述对齐策略通过非单调的全局语义映射,迫使模型学习音频场景的深层语义关联。

而且,该方法可以使用几乎所有的数据,包括噪声或非语音内容,而基于 ASR 转录的方法会丢弃非语音数据如环境声或音乐,导致数据利用率低下,基于 ASR 的对齐方法在 ACAV100M-Speech 数据集上会损失高达 90% 潜在有用数据。

MiDashengLM 训练框架

MiDashengLM 的训练数据通过多专家分析管道生成。首先对原始音频使用各种专家模型作语音、人声、音乐和环境声学的细粒度标注,包括使用 Dasheng-CED(https://huggingface.co/mispeech/ced-base) 模型预测 2 秒粒度的声音事件,再通过 DeepSeek-R1 推理大模型合成统一描述。

全部训练数据的原始标签在预训练中被弃用,而只采用利用上述流程生成的新的丰富文本描述标签,以迫使模型学习更丰富全面的声音信息。

其中,来自 ACAV100M(https://acav100m.github.io/) 的开源数据集经过上述流程重新标注后,形成了新的 ACAVCaps 训练集和 MECAT Benchmark。MECAT Benchmark (https://github.com/xiaomi-research/mecat) 已于近期开源,ACAVCaps 数据集将在 ICASSP 论文评审后开放下载。


ACAVCaps 训练数据集构建流程

04

全栈开源生态

透明可复现的技术体系

MiDashengLM 训练数据 100% 来自公开数据集,涵盖五大类 110 万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。数据分布经过精心设计,在预训练阶段 90% 采样来自 ASR 数据集但使用描述文本代替 ASR 转录文本,剩余 10% 分配给声音、音乐等专业任务,并同样使用 ACAVCaps 流程生成的描述文本代替原始标签。

不同于 Qwen2.5-Omni 等未公开训练数据细节的模型,MiDashengLM 完整公开了 77 个数据源的详细配比,技术报告中详细介绍了从音频编码器预训练到指令微调的全流程。


作为小米“人车家全生态”战略的关键技术,MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

基于 MiDashengLM 的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈,比如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又比如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答,其应用场景有广阔的空间。结合高效的推理部署性能,MiDashengLM 将广泛赋能智能座舱、智能家居等场景,推动多模态交互体验升级。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上,小米已着手对该模型做计算效率的进一步升级,寻求终端设备上可离线部署,并完善基于用户自然语言提示的声音编辑等更全面的功能。

MiDashengLM 基于 Apache 2.0 开源协议发布。诚邀全球开发者、行业伙伴及学术机构将其免费集成于商业产品或用于学术研究。模型迭代将深度听取社区优化建议,GitHub 项目持续接纳社区高质量代码合并。小米期待和全球开发者一起,秉持开源共享理念,共筑透明、高效、普惠的智能时代。

GitHub 主页:https://github.com/xiaomi-research/dasheng-lm

技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b

模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo: https://xiaomi-research.github.io/dasheng-lm

交互 Demohttps://huggingface.co/spaces/mispeech/MiDashengLM

END


图片

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiDashengLM-7B 音频理解 多模态大模型 Xiaomi Dasheng 人工智能 开源 AI Audio Understanding Multimodal Large Model Open Source
相关文章