小米MiLM PLUS团队的论文“HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation”在顶级国际会议ACL 2025上荣获SAC Highlights奖。该研究深入分析了现有位置编码(如RoPE)的远程衰减原则在大模型时代可能存在的局限性,发现模型实际学习到的注意力模式呈现U型而非全局衰减。研究揭示了RoPE中某些分量可能阻碍模型优化和外推能力。基于此,团队提出了新的位置编码HoPE,通过移除不必要的“激活”分量和最低频分量,仅保留高频信号来表示位置信息,显著提升了模型的上下文感知和外推能力,为大模型在长文本处理方面提供了新的解决方案。
💡 **位置编码新视角**: 研究发现,大模型在处理长文本时,模型实际学习到的注意力模式并非遵循传统的“远程衰减”原则,而是呈现出一种U型曲线。这意味着距离较远的token并非完全不相关,模型的注意力分布更倾向于局部衰减,而非全局衰减。
🔬 **RoPE机制的深层剖析**: 通过对RoPE(旋转位置嵌入)的深入分析,研究揭示了其某些特定分量(“激活”分量)可能阻碍模型的最佳学习过程,并导致在外推时注意力logits分布的OOD(out-of-distribution)行为,这是RoPE外推能力受限的主要原因。同时,研究还发现低频分量未能被有效利用。
🚀 **HoPE位置编码的创新**: 基于上述发现,团队提出了HoPE(一种新颖的位置编码),通过移除RoPE中那些容易被“激活”且频率最低的分量,仅保留高频信号来表示位置信息。这种设计打破了长期衰减的理论假设,使得位置编码能够更有效地学习,从而显著提升了模型的上下文感知能力和外推能力。
📈 **实验验证的显著提升**: 广泛的实验证明,HoPE在3B模型上无论是在上下文感知能力还是外推能力上,都显著优于RoPE。这项工作为Transformer模型的设计提供了新的思路,有望推动更强大大型语言模型(LLMs)的开发。
小米技术 2025-08-07 17:49 北京

自然语言处理领域顶级国际会议 ACL 2025 于2025年7月27日到8月1日在奥地利维也纳举行。本届会议共录用
1,699篇主会论文 和
1,392篇 Findings 论文,并于当地时间7月30日公布了本届大会的论文奖项。
SAC Highlights 奖项由高级领域主席在其研究领域推荐优秀论文,并由 ACL 2025 奖励委员会最终确定名单。本届共有
47篇论文入选,占录用论文总数的1.5%。
由小米 MiLM PLUS 团队主导完成的论文 “HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation” 成功入选 SAC Highlights!
奖项详情:https://2025.aclweb.org/program/awards/#sac-highlights论文详情:https://aclanthology.org/2025.acl-long.1123.pdfTL;DR: 我们对位置编码的远程衰减进行分析,发现位置相关的注意力模式并不呈现全局远程衰减,而是U型曲线;我们进一步分析了RoPE中各个分量对U型模式的作用,发现某些分量的对模型最优学习有阻碍作用;我们设计了新的位置编码HoPE,在模型感知和外推能力上都得到了很大的提升。