PaperAgent 10月26日 23:29
LightMem提升LLM记忆效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LightMem通过模拟人类记忆机制,解决LLM在超长多轮对话中的记忆痛点。它采用预压缩、主题分段和睡眠离线合并等技术,显著降低Token使用量和API调用次数,同时提升准确率。实验结果表明,LightMem在LongMemEval-S上超越多个强基线,实现又快又准的记忆增强。

😴 感觉记忆:预压缩 + 主题分段 - 通过动态阈值保留信息量最大的token,砍掉20-80%冗余Token,有效降低输入大小。

🔄 短期记忆:主题级缓冲 + 阈值摘要 - 将对话按主题缓存,达到阈值后一次性摘要入库,减少API调用17-177倍,并提升主题纯度。

🌙 长期记忆:在线软更新 + 睡眠离线合并 - 在线阶段追加写入,睡眠阶段并行执行读-改-写,避免实时推理延迟,并合并更新,总延迟从O(N)降至O(1)。

📊 实验结果:在LongMemEval-S上超越多个强基线,准确率最高提升10.9%,Token使用量减少117倍,API调用减少159倍,运行时间缩短超过12倍。

⚙️ 参数调优:压缩率r和缓冲阈值th的联合调参,例如GPT上r=0.6+th=512,Qwen上r=0.6+th=768,以平衡准确率、API调用和运行时间。

🔍 案例分析:睡眠更新避免误删 - 通过追加写入和离线知识消歧,既保证实时性,又避免不可逆信息损失,例如用户先问东京再问京都,行程信息并存。

2025-10-26 11:41 湖北

1. LLM 的“记性”又贵又差

在超长多轮对话里,LLM 面临两大痛点:

上下文窗口有限——“中间丢失”现象严重。

记忆系统昂贵——每轮都把原始对话塞进 LLM 做摘要/更新,Token 与 API 调用爆炸。

图 1 现有记忆系统 vs LightMem如图 1 所示,现有系统要么“全量硬存”,要么“逐轮硬更新”,冗余信息 > 50%,实时推理被拖垮。

2. 人类记忆的三把钥匙

Atkinson-Shiffrin 模型把记忆分为:

阶段

功能

对应 LLM 痛点

感觉记忆

毫秒级过滤无关刺激

冗余 Token

短期记忆

秒-分钟级主题整合

语义混杂

长期记忆

睡眠时离线巩固

实时更新延迟

LightMem 直接把这套机制搬进了 Transformer 时代。

3. LightMem 架构:三盏“灯”点亮高效记忆

图 3 整体架构

模块

昵称

关键设计

效果

Light1

感觉记忆

预压缩 + 主题分段

砍掉 20-80% 冗余 Token

Light2

短期记忆

主题缓冲 + 到达阈值再摘要

API 调用 ↓ 17-177×

Light3

长期记忆

在线“软更新”+ 睡眠离线并行合并

运行时 ↓ 1.7-12×

4. 核心技术拆解

4.1 Light1:预压缩 + 主题分段图 4(a):不同压缩率下 QA 准确率几乎不变,token 先砍一半

做法:

用 LLMLingua-2 给每轮对话打“保留概率”。

动态阈值 τ = 百分位(r),只保留信息量最大的 token。

压缩率 r=0.6 时,输入 token ↓ 40 %,准确率不掉。

4.2 Light2:主题级短期记忆缓冲结构:{topic, [user_i, model_i]}

到达 Token 阈值后,一次性调用 LLM 生成摘要 → 入库。

相比“逐轮摘要”,主题纯度↑ → 摘要幻觉↓,图 4(c) 显示去掉该模块 ACC 掉 6%。

4.3 Light3:睡眠期离线合并在线阶段只做“追加写”,零延迟。

离线阶段并行执行“读-改-写”:每条记忆维护一个更新队列 𝒬(e_i),仅与更高时间戳的条目合并,可批量并行,总延迟从 O(N) → O(1)。

5. 实验结果:又快又准,全线 SOTA

表 1 在 LongMemEval-S(平均 110k Token)上与 6 个强基线Full-Text、Naive RAG、LangMem、A-MEM、MemoryOS、Mem0对比:

基于GPT和Qwen骨干网络在LongMemEval上的实验表明:LightMem在准确率上超越强劲基线(最高提升10.9%),同时显著降低token使用量达117倍,减少API调用达159倍,并将运行时间缩短超过12倍。

6. 关键消融:参数怎么选?

表 2 给出压缩率 r 与缓冲阈值 th 的联合调参:

th↑ → 摘要批次↑ → API/时间↓,但 ACC 非单调。

r=0.6 + th=512 在 GPT 上取得最佳平衡点;Qwen 则偏好 r=0.6 + th=768

7. 案例:睡眠更新如何避免“误删”?

场景

硬更新

LightMem 软更新

用户先去东京→再问京都

直接覆盖为“计划京都游”,东京信息丢失

追加写入,两地行程并存

离线合并时再做知识消歧,既保证实时性,又避免不可逆信息损失。

LightMem: Lightweight and Efficient Memory-Augmented Generation浙江大学 & 新加坡国立大学  https://arxiv.org/html/2510.18866https://github.com/zjunlp/LightMem

推荐阅读

     动手设计AI Agents:(编排、记忆、插件、workflow、协作)

    一篇92页大模型Vibe Coding技术全面综述

     快手开源多模态Keye-VL-1.5-8B,本地视觉Agent有救了

    一篇最新自演化AI Agents全新范式系统性综述


    每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    LLM 记忆增强 LightMem Transformer 人类记忆模型 效率优化 多轮对话
    相关文章