2025-09-10 17:26 广东
LLM时代,RAG已成为知识密集型任务的标准范式。然而,RAG系统在处理长上下文时面临两个核心挑战:延迟高:Time-to-First-Token(TTFT)随上下文长度呈二次增长;内存贵:KV缓存随token数线性增长,导致吞吐量下降。传统方法试图通过稀疏注意力、上下文压缩等手段缓解,而Meta超级智能Lab首次针对RAG的特殊结构进行优化。(Code、Paper链接在文末)
图1:REFRAG架构概览
图6:课程学习数据混合比例重建任务:从chunk embedding还原原始token;逐步增加难度:从1个chunk到L个chunk;数据混合策略:早期简单样本多,后期复杂样本多。2️⃣ 强化学习(RL-based Selective Expansion)RL策略在所有压缩率下均优于随机/启发式选择策略。奖励函数:负困惑度(-perplexity);策略网络:基于chunk embedding选择展开段落;目标:在压缩率与性能之间找到最优平衡点。
短上下文PPL
长上下文PPL✅ RAG任务表现
图4:在相同延迟下,REFRAG显著优于LLaMA

🔍 RAG的“隐藏结构”:块对角注意力稀疏性
RAG上下文中的检索段落往往:语义差异大(多样性检索);交叉注意力弱(块对角结构);大部分token与查询无关。图7:不同段落间的注意力稀疏性图7:不同检索段落间的注意力值显著低于段落内部,表明交叉注意力稀疏。
🧩 REFRAG框架:压缩-感知-扩展三步走
REFRAG提出一种无需修改LLM结构的高效解码框架,核心思想是:用压缩的段落嵌入代替原始token,只在必要时展开完整上下文。🔧 架构组成
⚙️ 训练策略:课程学习+强化学习双轮驱动
1️⃣ 课程学习(Curriculum Learning)📊 实验:更快、更强、更长
✅ 主实验结果30× TTFT加速,16×上下文外推图4:在相同延迟预算下,REFRAG通过引入更多上下文,准确率提升1.22%(强检索)与1.93%(弱检索)。
