PaperAgent 09月25日
REFRAG框架提升RAG效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

REFRAG框架通过压缩-感知-扩展三步走,有效解决了RAG系统处理长上下文时延迟高、内存贵的问题。它利用块对角注意力稀疏性,用压缩的段落嵌入代替原始token,仅在必要时展开完整上下文,显著提升了Time-to-First-Token和吞吐量。REFRAG采用课程学习和强化学习双轮驱动训练策略,在压缩率与性能之间找到最优平衡点,实验结果表明REFRAG在相同延迟预算下能显著提升准确率。

🔍 RAG的“隐藏结构”:块对角注意力稀疏性。RAG上下文中的检索段落往往语义差异大,交叉注意力弱,大部分token与查询无关,表现为块对角结构。

🧩 REFRAG框架:压缩-感知-扩展三步走。REFRAG提出一种无需修改LLM结构的高效解码框架,用压缩的段落嵌入代替原始token,仅在必要时展开完整上下文,有效降低延迟和内存消耗。

🔧 架构组成:REFRAG通过压缩段落嵌入、选择性扩展和重建原始token三个阶段,实现高效处理长上下文,提升RAG系统性能。

📊 实验结果:更快、更强、更长。REFRAG在主实验中实现了30× TTFT加速,16×上下文外推,并在相同延迟下显著提升了RAG任务的准确率。

🧪 训练策略:课程学习+强化学习双轮驱动。REFRAG采用课程学习和强化学习相结合的训练策略,通过逐步增加难度和优化奖励函数,在压缩率与性能之间找到最优平衡点。

2025-09-10 17:26 广东

LLM时代,RAG已成为知识密集型任务的标准范式。然而,RAG系统在处理长上下文时面临两个核心挑战:

延迟高:Time-to-First-Token(TTFT)随上下文长度呈二次增长;

内存贵:KV缓存随token数线性增长,导致吞吐量下降。

传统方法试图通过稀疏注意力上下文压缩等手段缓解,而Meta超级智能Lab首次针对RAG的特殊结构进行优化。(Code、Paper链接在文末

🔍 RAG的“隐藏结构”:块对角注意力稀疏性

RAG上下文中的检索段落往往:

语义差异大(多样性检索);

交叉注意力弱(块对角结构);

大部分token与查询无关

图7:不同段落间的注意力稀疏性

图7:不同检索段落间的注意力值显著低于段落内部,表明交叉注意力稀疏

🧩 REFRAG框架:压缩-感知-扩展三步走

REFRAG提出一种无需修改LLM结构的高效解码框架,核心思想是:

用压缩的段落嵌入代替原始token,只在必要时展开完整上下文。

🔧 架构组成图1:REFRAG架构概览

⚙️ 训练策略:课程学习+强化学习双轮驱动

1️⃣ 课程学习(Curriculum Learning)图6:课程学习数据混合比例重建任务:从chunk embedding还原原始token;

逐步增加难度:从1个chunk到L个chunk;

数据混合策略:早期简单样本多,后期复杂样本多。

2️⃣ 强化学习(RL-based Selective Expansion)RL策略在所有压缩率下均优于随机/启发式选择策略。

奖励函数:负困惑度(-perplexity);

策略网络:基于chunk embedding选择展开段落;

目标:在压缩率与性能之间找到最优平衡点。

📊 实验:更快、更强、更长

✅ 主实验结果30× TTFT加速,16×上下文外推

短上下文PPL长上下文PPL✅ RAG任务表现图4:在相同延迟下,REFRAG显著优于LLaMA
图4:在相同延迟预算下,REFRAG通过引入更多上下文,准确率提升1.22%(强检索)与1.93%(弱检索)

🧪 消融实验:每一步都很关键

https://arxiv.org/pdf/2509.01092
REFRAG: Rethinking RAG based Decoding
https://github.com/facebookresearch/refrag

推荐阅读


    每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    REFRAG RAG 高效解码 长上下文处理 块对角注意力 压缩感知 课程学习 强化学习
    相关文章