机器之心 09月08日
Meta提出REFRAG解码框架,提升LLM长上下文处理效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta Superintelligence Labs 近期提出了名为 REFRAG 的高效解码框架,旨在解决大型语言模型(LLM)在处理长上下文输入时遇到的效率瓶颈,特别是在检索增强生成(RAG)等应用中。传统 LLM 的注意力机制计算和内存开销随输入长度平方增长,导致显著延迟和高昂成本。REFRAG 通过将检索到的文档压缩成「块向量」,大幅缩短输入序列,从而降低计算和内存消耗。该框架还引入了强化学习驱动的选择性压缩机制,以保留关键信息,确保精度不降反升。实验表明,REFRAG 在 TTFT(首个 token 生成时间)方面可加速高达 30.8 倍,并能将 LLM 的有效上下文大小扩展 16 倍。

💡 REFRAG 框架通过创新的四步流程,将长文本输入转化为「块向量」,显著压缩了输入序列,从而克服了 LLM 在处理长上下文时的效率难题。这使得 LLM 能够更快、更经济地处理海量信息,尤其是在 RAG 等需要大量外部知识的应用场景下。

🚀 该框架的核心优势在于其卓越的速度提升。通过缩短输入序列和减小 KV Cache,REFRAG 能够实现高达 30.8 倍的首个 token 生成时间(TTFT)加速,并在长文本场景下展现出比基线方法更优越的性能,其加速效果随上下文规模的增加呈指数级增长。

🎯 为了确保信息在压缩过程中不丢失关键内容,REFRAG 引入了一个基于强化学习(RL)的「选择性压缩」机制。该机制能够智能识别并保留对任务最关键的信息片段,从而在大幅提升效率的同时,保证了模型在长上下文任务上的准确性,甚至在某些基准测试中有所提升。

📚 REFRAG 不仅提高了处理速度和效率,还极大地扩展了 LLM 的上下文处理能力。它能够将现有 LLM 的有效上下文大小扩展 16 倍,使其能够处理更庞大的信息量,为开发更智能、更具信息感知能力的 AI 应用打开了新的可能性。

2025-09-08 14:20 北京

Meta 提出 REFRAG 的高效解码框架,旨在解决 LLM 在处理长上下文输入时面临的效率瓶颈。

机器之心报道

编辑:+0,冷猫

经历了前段时间的鸡飞狗跳,扎克伯格的投资似乎终于初见成效。

近期,Meta Superintelligence Labs 联合提出了一个名为 REFRAG 的高效解码框架,旨在解决 LLM 在处理长上下文输入时面临的效率瓶颈,尤其是在 RAG 等应用场景下。

为什么长上下文处理如此困难?

在当前的 AI 应用中,利用 LLM 处理包含大量外部知识的长文本输入,是提升问答、对话和智能体应用能力的关键。然而,这一过程也带来了严峻的挑战:在传统 LLM 中,注意力机制的计算和内存开销会随着输入长度的平方(N²)增长。

这意味着文本长度翻一倍,速度可能会慢 4 倍,这会导致显著的系统延迟,并消耗大量内存用于存储 KV Cache,进而降低系统吞吐量。这使得开发者不得不在知识丰富度与系统效率之间做出痛苦的权衡。

Meta 的研究指出,在 RAG 应用中,LLM 处理的上下文中包含了大量从外部知识库检索拼接而成的段落,但其中只有一小部分与用户查询紧密相关。这些不相关的段落导致了计算资源的浪费。REFRAG 的核心思想正是基于这一观察,通过识别并跳过对这些非相关上下文的无效计算,来优化解码过程。

REFRAG 是如何解决问题的?

REFRAG 框架通过一个精巧的四步流程,利用注意力稀疏结构,实现了显著的性能提升。它与传统 RAG 的关键差异在于,它避免了让 LLM 直接处理冗长的原始文本。

Meta 表示,该框架的有效性已在包括 RAG、多轮对话和长文档摘要在内的多种长上下文任务中得到验证,取得了突破性的成果:

简而言之,REFRAG 让「大上下文 RAG」从理想变成了现实。

虽然其效果听起来非常不错,但评论区也表示,它最终的价值仍需要在更广泛的实际应用场景中进行检验。

还有人对该研究中的 RL 策略提出了质疑。

方法

为实现编码器与解码器的有效对齐,本研究遵循 Yen et al. (2024) 的工作,采用了一种基于「下一段落预测」任务的持续预训练方法。

在训练中,每个数据点包含总计 s+o=T 个词元(token)。通过这一预训练过程,模型能够学习如何利用块嵌入(chunk embeddings)来高效执行下游任务。

为了进一步提升模型性能,该方法还引入了通过 RL 实现的选择性压缩机制。在完成 CPT 对齐后,模型会经过监督微调 ,以适应具体的下游应用场景,例如 RAG 和多轮对话。

在 CPT 的核心任务中,模型的工作流程如下:编码器首先处理前 s 个词元,其输出的压缩信息将辅助解码器预测接下来的 o 个词元

这项任务旨在训练模型利用上下文信息进行高效预测,为其在实际应用中的表现奠定基础。其最终目标是让任意的编码器和解码器组合都能协同工作,确保解码器基于压缩上下文生成的内容,与它在拥有完整、未压缩上下文时生成的内容高度相似。

持续预训练方案

为确保 CPT 阶段的成功,研究者提出了一个包含重建任课程学习方法的训练方案。消融研究表明,该方案对于实现优异的 CPT 性能至关重要。

重建任务。 此任务的目标是让编码器学习如何以最小的信息损失压缩文本。具体操作是,将前 s 个词元 输入编码器,然后训练模型在解码器中重建出完全相同的词元。在此过程中,解码器模型本身保持「冻结」(即参数不更新),训练重点完全集中在编码器和用于连接两者的投影层上。

该任务主要实现两个目标:

设计重建任务的一个特定意图是,鼓励模型在训练时更多地依赖其上下文记忆(即从输入中获取信息),而非其固有的参数化记忆(即模型自身已经学到的知识)。一旦通过此任务初步对齐了编码器与解码器,便会解冻解码器,正式开始 CPT。

课程学习。尽管上述训练任务在概念上清晰,但在实践中却极具挑战性。其难度在于,随着块长度 k 的增加,可能的词元组合数量会以的速率呈指数级增长(其中 V 是词汇表的大小)。将如此巨大的多样性有效压缩到一个固定长度的嵌入中,是一项重大的技术挑战。此外,从 L 个块嵌入中重建出个词元,进一步加剧了任务的复杂性。

与直觉相反,直接继续预训练解码器以利用编码器输出,即使是在重建任务中,也未能降低困惑度。为解决这一优化挑战,研究者建议对这两项任务均采用课程学习。课程学习通过逐步增加任务难度,使模型能够渐进且有效地掌握复杂技能。对于重建任务,训练从重建单个块开始:编码器接收用于的一个块嵌入,解码器则使用投影后的块嵌入 ecnk1 来重建这 k 个词元。随后,模型从中重建,以此类推。为了持续调整任务难度,研究者随时间改变数据混合比例,从以较简单任务(例如,单个块嵌入)为主的样本开始,逐步过渡到以更困难任务(即 L 个块嵌入)为主的样本。图 6 提供了课程学习期间数据混合的可视化展示。

选择性压缩。为了进一步提升答案预测的准确性,该方法(REFRAG)引入了选择性词元压缩机制。其核心思想是,对于上下文中特别重要的信息块,可以不进行压缩,而是以原始形式保留,从而避免关键信息丢失。

一个强化学习策略被用来决定哪些块应当被保留。该策略以下一段落预测的困惑度作为负向奖励信号进行指导(即困惑度越低,奖励越高),从而学习识别并保留关键信息。编码器和解码器都经过微调,以适应这种压缩块与未压缩块混合的输入形式。该策略网络利用块嵌入和掩码技术来优化块的扩展顺序,既保留了解码器的自回归特性,又实现了压缩位置的灵活安排。

更多技术细节请参看原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

REFRAG LLM 长上下文 RAG 解码框架 Meta AI效率 Natural Language Processing Large Language Models Long Context Window Retrieval Augmented Generation Meta AI Decoding Framework AI Efficiency
相关文章