REFRAG框架提升RAG效率

PaperAgent 09月25日

REFRAG框架提升RAG效率

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

REFRAG框架通过压缩-感知-扩展三步走，有效解决了RAG系统处理长上下文时延迟高、内存贵的问题。它利用块对角注意力稀疏性，用压缩的段落嵌入代替原始token，仅在必要时展开完整上下文，显著提升了Time-to-First-Token和吞吐量。REFRAG采用课程学习和强化学习双轮驱动训练策略，在压缩率与性能之间找到最优平衡点，实验结果表明REFRAG在相同延迟预算下能显著提升准确率。

🔍 RAG的“隐藏结构”：块对角注意力稀疏性。RAG上下文中的检索段落往往语义差异大，交叉注意力弱，大部分token与查询无关，表现为块对角结构。

🧩 REFRAG框架：压缩-感知-扩展三步走。REFRAG提出一种无需修改LLM结构的高效解码框架，用压缩的段落嵌入代替原始token，仅在必要时展开完整上下文，有效降低延迟和内存消耗。

🔧 架构组成：REFRAG通过压缩段落嵌入、选择性扩展和重建原始token三个阶段，实现高效处理长上下文，提升RAG系统性能。

📊 实验结果：更快、更强、更长。REFRAG在主实验中实现了30× TTFT加速，16×上下文外推，并在相同延迟下显著提升了RAG任务的准确率。

🧪 训练策略：课程学习+强化学习双轮驱动。REFRAG采用课程学习和强化学习相结合的训练策略，通过逐步增加难度和优化奖励函数，在压缩率与性能之间找到最优平衡点。

2025-09-10 17:26 广东

LLM时代，RAG已成为知识密集型任务的标准范式。然而，RAG系统在处理长上下文时面临两个核心挑战：

延迟高：Time-to-First-Token（TTFT）随上下文长度呈二次增长；

内存贵：KV缓存随token数线性增长，导致吞吐量下降。

传统方法试图通过稀疏注意力、上下文压缩等手段缓解，而Meta超级智能Lab首次针对RAG的特殊结构进行优化。（Code、Paper链接在文末）

🔍 RAG的“隐藏结构”：块对角注意力稀疏性

RAG上下文中的检索段落往往：

语义差异大（多样性检索）；

交叉注意力弱（块对角结构）；

大部分token与查询无关。

图7：不同段落间的注意力稀疏性

图7：不同检索段落间的注意力值显著低于段落内部，表明交叉注意力稀疏。

🧩 REFRAG框架：压缩-感知-扩展三步走

REFRAG提出一种无需修改LLM结构的高效解码框架，核心思想是：

用压缩的段落嵌入代替原始token，只在必要时展开完整上下文。

🔧 架构组成

图1：REFRAG架构概览

⚙️ 训练策略：课程学习+强化学习双轮驱动

1️⃣ 课程学习（Curriculum Learning）

图6：课程学习数据混合比例重建任务：从chunk embedding还原原始token；

逐步增加难度：从1个chunk到L个chunk；

数据混合策略：早期简单样本多，后期复杂样本多。

2️⃣ 强化学习（RL-based Selective Expansion）RL策略在所有压缩率下均优于随机/启发式选择策略。

奖励函数：负困惑度（-perplexity）；

策略网络：基于chunk embedding选择展开段落；

目标：在压缩率与性能之间找到最优平衡点。

📊 实验：更快、更强、更长

✅ 主实验结果30× TTFT加速，16×上下文外推

短上下文PPL

长上下文PPL✅ RAG任务表现

图4：在相同延迟下，REFRAG显著优于LLaMA

图4：在相同延迟预算下，REFRAG通过引入更多上下文，准确率提升1.22%（强检索）与1.93%（弱检索）。

🔍 RAG的“隐藏结构”：块对角注意力稀疏性

🧩 REFRAG框架：压缩-感知-扩展三步走

⚙️ 训练策略：课程学习+强化学习双轮驱动

📊 实验：更快、更强、更长

🧪 消融实验：每一步都很关键

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签