机器之心 09月14日
Meta AI 发布 MobileLLM-R1,小参数模型性能显著提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta AI 近期发布了全新的高效推理模型系列 MobileLLM-R1,该系列模型在参数量远小于其他开源模型的情况下,实现了性能上的显著飞跃,部分模型性能提升达 2-5 倍。MobileLLM-R1 专注于数学、编程和科学问题,并提供了完整的训练方案和数据源以保证研究的可复现性。即使是参数量最大的 950M 模型,在仅使用少量 token 进行预训练的情况下,其在多项基准测试中的表现也已能与使用更多 token 训练的更大参数模型相媲美,甚至超越了部分现有开源模型,为端侧设备的应用和研究提供了新的可能。

🚀 **性能大幅提升,效率显著**:MobileLLM-R1 系列模型在与现有完全开源模型相比时,展现出惊人的性能提升,尤其是在参数量较小的情况下,性能可提升 2-5 倍。例如,MobileLLM-R1 950M 模型在 MATH 基准测试上的准确率比 Olmo 1.24B 模型高出约五倍,比 SmolLM2 1.7B 模型高出约两倍,并在编码基准测试中创下了新的最高水平,显示了其在模型效率上的突破。

🎯 **专注特定领域,优化训练**:该系列模型并非通用聊天模型,而是经过专门的监督微调 (SFT),重点训练了数学、编程(Python、C++)和科学问题解决能力。最大的 950M 模型仅使用约 2T 高质量 token 进行预训练,总训练 token 量少于 5T,这表明了其训练的高效性,并在 MATH、GSM8K、MMLU 和 LiveCodeBench 等基准测试中取得了优异成绩。

💡 **开源完整方案,推动研究**:Meta AI 不仅发布了 MobileLLM-R1 模型本身,还提供了完整的训练方案和数据源。这确保了研究的可重复性,并鼓励社区进行进一步的研究和开发。这种开放性有助于加速小参数模型领域的技术进步,并促进其在更多场景下的落地应用。

🌍 **华人团队主导,未来可期**:MobileLLM-R1 项目由 Zechun Liu、Ernie Chang 和 Changsheng Zhao 等华人研究人员主导研发,他们在高效模型部署、自然语言处理和深度学习领域拥有深厚的积累。他们的工作预示着小参数模型的发展方向,其低廉的训练成本和易于部署的特性,使其能够覆盖更多端侧设备,实现更广泛的应用。

2025-09-13 16:52 北京

与其他全开源模型相比,性能提升2-5倍。

机器之心报道

编辑:泽南、杨文

与其他全开源模型相比,性能提升2-5倍。

小参数模型也进入了 R1 时代,这次开源出新技术的是 Meta。

本周五,Meta AI 团队正式发布了 MobileLLM-R1。

这是 MobileLLM 的全新高效推理模型系列,包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

它们不是通用的聊天模型,而是监督微调 (SFT) 模型,专门针对数学、编程(Python、C++)和科学问题进行训练。

除了模型本身之外,Meta 还发布了完整的训练方案和数据源,以确保可重复性并支持进一步的研究。

值得注意的是,该系列参数最大的 MobileLLM-R1 950M 模型仅使用约 2T 高质量 token 进行预训练,总训练 token 量少于 5T,但在 MATH、GSM8K、MMLU 和 LiveCodeBench 基准测试中,其性能与使用 36T token 进行训练的 Qwen3 0.6B 相当或更佳。

与现有的完全开源模型相比,尽管参数规模明显更小,MobileLLM-R1 950M 模型在 MATH 基准上的准确率也比 Olmo 1.24B 模型高出约五倍,比 SmolLM2 1.7B 模型高出约两倍。此外,MobileLLM-R1 950M 在编码基准测试中的表现远超 Olmo 1.24B 和 SmolLM2 1.7B ,在完全开源模型中创下了新的最高水平。

Token 效率的比较如下:

后训练比较:

模型架构:

MobileLLM-R1 的发布引起了机器学习社区的讨论。人们欢迎通义、Meta 等顶尖大模型团队基于小体量模型的探索。这一方向的训练成本较为低廉,可以更加方便尝试各类最新论文提出的技术,更重要的是,模型体量的下降也意味着它可以覆盖更多端侧设备,实现更大面积的落地。

随着训练成本普遍下降,我们将会得到更好的模型。

背后三位华人作者

在 MobileLLM-R1 系列发布的同时,背后的作者们也正式亮相,他们表示,该工作的研发时间有一年之久。该项目由华人领衔。

Zechun Liu

Zechun Liu 是 Meta AI 的研究科学家,专注于大模型和基础模型的高效部署与优化。

她的研究涉及大语言模型的预训练与后训练,神经网络架构设计与搜索,量化、剪枝与稀疏性,知识蒸馏以及高效的视觉 - 语言模型等,目标是在计算资源有限的环境中实现高性能模型的推理和部署。

2016 年,她在复旦大学获得本科学位,2019 年至 2021 年在卡内基梅隆大学担任访问学者,导师为 Marios Savvides 教授和 Eric Xing(邢波)教授。2021 年 6 月获得香港科技大学的博士学位,师从 Kwang-Ting Tim CHENG 教授。

Zechun Liu 在顶级会议和期刊上发表了 20 多篇论文,其论文引用量达到了数千次。

Ernie Chang

Ernie Chang 是 Meta AI 的研究科学家,专注于自然语言处理、多模态学习和高效模型部署等领域。

他于 2023 年 2 月加入 Meta,参与了多个前沿项目的研究和开发。

在他的研究中,Ernie Chang 参与了多个重要的项目和论文。例如,他是《Agent-as-a-Judge: Evaluate Agents with Agents》一文的共同作者,该论文提出了一种新的评估方法,通过代理模型对其他代理模型进行评估,从而提高评估效率和准确性。

此外,他还参与了《MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》的研究,该研究致力于优化小语言模型,以适应移动设备上的应用需求。

Ernie Chang 的研究兴趣包括多语言处理、多模态系统等。

Changsheng Zhao(赵常盛)

Changsheng Zhao 是 Meta AI 的研究科学家,专注于自然语言处理、深度学习和大语言模型的高效部署与优化。

他本科毕业于北京大学,后在哥伦比亚大学攻读硕士学位,毕业后去了三星美国研究员担任研究员,2021 年加入 Meta。

在 Meta,Changsheng Zhao 参与了多个前沿研究项目,主要集中在模型量化、神经网络架构和多模态系统等领域。 部分代表性工作包括:

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MobileLLM-R1 Meta AI 开源模型 大模型 小参数模型 AI 效率 自然语言处理 Machine Learning Open Source Models Large Language Models Small Parameter Models AI Efficiency Natural Language Processing
相关文章