小米技术 2025-08-29 10:01 北京
近日,EMNLP 2025(Empirical Methods in Natural Language Processing,简称 EMNLP)公布了论文录用结果。小米共有 5 篇最新研究成果成功入选 EMNLP 2025,其中主会长文 4 篇,Findings 长文 1 篇,涵盖了大模型高效推理、大模型 GUI 智能体、大模型知识增强框架、大模型优化算法创新等。这是小米大模型部分研究成果的阶段性展示,同时也是践行小米科技战略中“深耕底层技术、长期持续投入”的又一例证。
| 2 篇论文受小米揭榜挂帅科研专项(Xiaomi Open-Competition Research Program)支持
作为自然语言处理和人工智能领域的国际顶级会议之一,EMNLP 大会吸引了全球研究人员、学者和工程师参与。该会议侧重于基于经验方法和数据驱动的自然语言处理技术,每年举办一次,在自然语言处理和人工智能领域具有重要影响力。EMNLP 2025 将于今年 11 月 5 日至 9 日,在中国苏州举行。
论文简介
▍《BacktrackAgent: Enhancing GUI Agent with Error Detection and Backtracking Mechanism》
论文作者:吴沁倬,高鹏至,刘伟,栾剑
录用类型:主会长文
论文链接:https://arxiv.org/pdf/2505.20660
GUI Agent 因其能在 GUI 环境中通过多轮交互完成任务的出色能力而备受关注。然而,现有的 Agent 主要侧重于提高单个动作的准确性,往往缺乏有效的错误检测和恢复机制。
为了解决这些不足,我们提出了 BacktrackAgent,此框架集成了回撤机制来提升任务完成效率。BacktrackAgent 包含验证器、判断器和反思器组件,用于错误检测和恢复,同时还应用判断奖励来进一步提升 Agent 的性能。此外,我们还开发了一个专门为回撤机制设计的训练数据集,该数据集考虑了操作执行后的结果页面。实验结果表明,BacktrackAgent 在 Mobile3M 和 Auto-UI 基准测试中,在任务成功率和步骤准确率方面均取得了性能提升。
▍《MAKAR: a Multi-Agent framework based Knowledge-Augmented Reasoning for Grounded Multimodal Named Entity Recognition》
论文作者:林昕奎,张钰辉,徐永秀,黄琨,穆红章,王玉斌,苟高鹏,钱利,彭力,刘伟,栾剑,许洪波
录用类型:主会长文
可定位多模态命名实体识别(GMNER)旨在从图像和文本数据中提取文本实体及其类型和其对应的视觉区域,已成为多模态信息抽取中的关键任务。然而,现有方法仍面临着两大挑战。首先,它们未能解决由一词多义和数据集的长尾分布引起的语义模糊问题。其次,与直接提供完整描述性短语的视觉定位不同,实体定位只提供包含较少语义信息的简短实体名称,阻碍了文本实体—视觉区域的精准对齐。
为了解决这些问题,我们提出了 MAKAR,一个基于知识增强推理的多智能体(Multi-Agent)框架,包含知识增强、实体修正和实体推理定位三个智能体。在命名实体识别阶段,知识增强 Agent 将多模态大语言模型(MLLM)作为隐式知识库,利用其内部知识增强语义模糊的图文内容,返回初步的候选实体和置信度;对于其中在实体边界和类型上呈现低置信度的样本,实体修正 Agent 则调用 web 搜索工具检索和总结相关的网页内容,进而使用内部和外部知识联合修正实体,得到最终目标实体。在实体定位阶段,我们针对推理定位构造了 Easy3000 和 Hard3000 两种类型的训练数据集,采用冷启动 SFT + 强化学习 RL 相结合的方式训练实体推理定位 Agent,利用长思维链对每个实体进行推理定位。实验结果表明,我们的 MAKAR 框架在 GMNER 和 FMNERG 基准测试上达到了最先进的性能。
▍《XQuant: Achieving Ultra-Low Bit KVCache Quantization with Cross-Layer Compression》
论文作者:杨昊骐,姚杳,李祖超,齐保元,刘国明,赵海
录用类型:主会长文
大语言模型(Large Language Models, LLMs)如今在各类自然语言处理任务中展现出卓越的性能。然而,随着模型参数规模与 KV 缓存(Key-Value Cache)存储开销的增长,尤其在长上下文的理解与生成任务中,大语言模型对显存资源的需求显著上升,给资源受限环境中的实际部署带来了严峻挑战。
KV 缓存量化(Quantization)作为一种能够在保留历史信息的同时有效降低内存消耗的技术,近年来受到广泛关注。本文提出了一种无需训练的即插即用框架 —— XQuant,旨在将 KV 缓存量化压缩至极低的等效位宽。与现有 KV 量化方法相比,XQuant 在两个方面实现了关键的创新性突破:其一,提出了一种无需额外数据的轻量级量化校准方法;其二,引入了跨层 KV 缓存压缩机制,从而实现了极低等效位宽的压缩目标。TruthfulQA 和 LongBench 等测试集上的广泛实验结果表明,XQuant 在多个大语言模型中均能实现不高于 1.4 比特的等效位宽。XQuant 在相较于当前主流基线方法 KIVI-2bit 与 AsymKV-1.5bit 实现更高压缩率的同时,仍能有效保持模型性能,在模型准确率和压缩率之间实现了更优的平衡。
▍《Faster In-Context Learning for LLMs via N-Gram Trie Speculative Decoding》
论文作者:陈镜霖,李奇伟,李祖超,齐保元,刘国明,艾浩军,赵海,王平
录用类型:主会长文
作为提示工程中的关键方法,上下文学习(ICL)能够提升大型语言模型(LLMs)的泛化能力与知识利用能力。然而,检索到的上下文篇幅较长,且自回归模型的 token 吞吐量有限,这两大因素严重制约了推理速度。
为解决这一问题,我们提出了一种名为 “N 元语法前缀树推测解码(N-Gram Trie Speculative Decoding)” 的新方法,该方法可充分利用上下文与模型输出之间的重叠信息。具体而言,该方法从上下文数据中构建 N 元语法前缀树(n-gram trie),并基于此生成草稿内容,从而加快 LLMs 的 token 生成速度。我们在摘要生成、检索增强生成(RAG)以及基于上下文的问答(QA)三类任务上对该方法进行了评估。在 Vicuna-7B、Llama2-7B-Chat 和 Llama3-8B-Instruct 三种模型上的实验结果表明,该方法在不损失准确率的前提下,实现了显著的速度提升。与多种性能优异的基线方法相比,我们提出的方法取得了最高的平均加速比,充分证明了其有效性与高效性。
▍《SPO: Self Preference Optimization with Self Regularization》
论文作者:孙宇浩,张逸帆,王全东,吴沁倬,刘伟,栾剑
录用类型:Findings 长文
直接偏好优化 (DPO) 是一种广泛使用的离线偏好优化算法,它通过对 PPO 的奖励函数进行重新参数化,增强了强化学习的简单性和训练稳定性。近年来,SimPO(简单偏好优化)和 CPO(对比偏好优化)提出了无参考偏好优化方法来简化 DPO 的训练过程。我们观察到这些无参考方法表现出更高的训练效率,但容易过度优化,导致性能下降。
为了解决这些问题,我们提出了自偏好优化 (SPO)。SPO 使用 SiLU 函数替换传统的对数 Sigmoid 损失函数。SiLU 函数在有限值处达到最小值,防止模型过度放大选择-拒绝样本概率比,从而缓解过度优化问题。我们从理论上证明了 SPO 损失是 DPO 损失的上界,这意味着优化 SPO 目标函数实际上会优化 DPO 目标函数。我们在包括 AlpacaEval 2 和 MT-Bench 在内的多个基准测试中评估了 SPO 的有效性。实验结果表明,SPO 在 AlpacaEval 2 上的长度控制胜率方面比 SimPO 提升了7%,同时在 MT-Bench 上也表现出色。
关于我们
以上工作主要由小米大模型团队完成,团队覆盖多模态感知、多模态生成、AI Agent、工程与产品等方向,成员主要分布在北京和武汉,既有来自清北复交中科院的优秀校友,也有来自微软、字节、阿里、腾讯、百度等大厂的资深专家。我们坚持小团队、扁平化、灵活耦合的模式,激发每一位成员的创造力与潜力。
作为小米大模型技术的“试验田”和“弹药库”,团队致力于打造业内领先的大模型技术与应用,支持公司关键业务,并在小米澎湃OS、小爱同学、小米汽车智能座舱、生态链产品等多个场景落地创新能力。在科研与生态建设方面,团队已累计提交专利申请超 100 件,在国际顶会发表论文 80 余篇,开源 20 余项技术成果,并与清华、北大、复旦、武大等高校展开科研与人才培养合作。
未来,团队将紧密围绕“人车家全生态”场景,持续挖掘用户需求,把大模型技术更深入地应用于小米终端产品,建设更智能、安全、舒适的生活体验,让消费者能够体验科技带来的美好生活。
大量实习和正式岗位开放中,欢迎大家点击文末「阅读原文」投递简历:
顶尖应届 - 大模型AI Agent算法工程师
顶尖应届 - 视觉生成大模型算法研究员
顶尖应届 - 语音生成大模型算法工程师
顶尖应届 - 全模态理解和推理大模型算法工程师
顶尖应届 - 多模态基座模型算法工程师
END
