机器之心 20小时前
Mem-α:强化学习赋能大模型自主记忆管理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在大语言模型(LLM)快速发展的当下,记忆管理成为实现长期智能的关键。现有外部记忆系统常依赖人工规则,导致模型难以自主判断何时、何事、如何记忆。Mem-α 提出将记忆构建视为可学习的序列决策问题,首次引入强化学习(RL)来训练模型自主管理记忆。通过参考人脑三层记忆系统(核心、情景、语义记忆),并设计多维度奖励函数,Mem-α 使 LLM 能够灵活存储、更新和组织信息,在长文本理解、信息检索等任务上展现出卓越的性能和泛化能力,甚至实现长度外推,标志着记忆管理正从工程问题转向学习问题。

💡 Mem-α 引入强化学习,将大模型记忆管理从依赖人工规则转变为自主学习。模型通过与环境交互,学习最优的记忆存储、更新和组织策略,从而克服了现有记忆系统在复杂交互中“记错”、“忘记”的问题,实现了更智能、主动的记忆行为。

🧠 Mem-α 的架构借鉴了人脑的三层记忆系统:核心记忆(用户长期身份、目标、偏好)、情景记忆(带时间线事件)和语义记忆(结构化知识)。这种分层结构使得模型能够更精细地管理不同类型的信息,并根据任务需求灵活调用,显著提升了信息组织和检索的效率与准确性。

🚀 Mem-α 在多个评测任务中展现出强大的性能和泛化能力,尤其在精确检索和长期理解方面表现突出。即使在仅基于平均长度小于 30K tokens 的样本训练的情况下,模型也能稳定泛化至超过 400K tokens 的超长文档,实现了真正的长度外推,证明了其对极端长序列推理的鲁棒性。

📈 Mem-α 在提升性能的同时,实现了高效的记忆压缩,记忆占用减少近 50%,并在长文理解任务中展现出“保真度”与“存储效率”的理想平衡。这得益于其结构化的记忆方式和强化学习的优化,使得模型能够更有效地利用有限的记忆空间。

2025-11-07 15:15 北京

记忆管理不再是工程问题,而是可以被学习的问题。

在大语言模型快速发展的今天,记忆”正成为智能体能否真正具备长期智能的关键。

即使是支持百万级上下文的GPT-4.1,当交互持续增长时,成本和延迟依然会呈指数级上升。于是,外部记忆系统应运而生——然而,大多数现有方案依赖人工规则与 prompt 指令,模型并不真正“理解”何时该记、记什么、如何更新。

Mem-α 的出现,正是为了解决这一困境。由加州大学圣地亚哥分校的 Yu Wang 在 Anuttacon 实习期间完成,这项工作是首次将强化学习引入大模型的记忆管理体系,让模型能够自主学习如何使用工具去存储、更新和组织记忆。

记忆瓶颈:人工规则的尽

现有的记忆增强智能体(如 MIRIXMemGPT)通常依赖开发者提前设计好的指令模板来指导记忆操作。但在复杂的交互环境中,模型往往面临三大挑战

结果就是记错忘记频发:如图所示,在没有强化学习优化前,Qwen3-4B 模型未能更新核心记忆、语义记忆仅保存了片段性信息,最终导致问答错误而经过Mem-α训练后,模型开始展现出主动学习的能力:能识别出关键事件,将它们分别写入核心记忆 (Core Memory)、情景记忆 (Episodic Memory) 和语义记忆 (Semantic Memory)中,实现全面的信息保留与压缩

从规则到学习:Mem-α 的核心机制

Mem-α 的核心贡献在于将记忆构建问题转化为一个可通过强化学习优化的序列决策问题。与以往依赖监督学习或手工规则的方法不同,Mem-α 让智能体在处理信息流的过程中自主探索最优的记忆管理策略,并通过下游任务表现直接获得反馈。这种端到端的优化方式使得模型能够学习到真正有效的记忆构建策略。

任务设定(Task Setup)

如上图所示,Mem-α 将记忆构建建模为顺序决策过程。智能体依次处理信息块,决定执行哪些记忆操作,处理完成后利用构建的记忆系统回答问题。训练过程中通过多个奖励信号(到 )获得反馈。被训练的智能体(🔥)专注学习记忆管理策略,固定的大语言模型(❄️)负责根据记忆回答问题。

奖励函数设计

Mem-α采用多维度奖励函数优化记忆构建:

最终奖励: (实验发现效果最佳)。

受启发于人脑的三层记忆系统

Mem-α 的架构参考了认知科学中的记忆分类理论,构建了一个三层记忆体系:

智能体需要在每个时间步决定调用哪种记忆类型、执行插入或更新操作。通过强化学习优化后,模型学会了如人类一般“灵活调用不同记忆系统”。

训练数据集构建

Mem-α 的训练数据集的构建思路来源于MemoryAgentBench中的四个维度:

1.精确检索(Accurate Retrieval):从历史数据中提取正确信息以回答查询,涵盖单跳和多跳检索场景

2.测试时学习(Test-Time Learning:在部署期间获取新行为或能力

3.长期理解(Long-Range Understanding):整合分布在多个片段中的信息,回答需要全面序列分析的查询

4.解决(Conflict Resolution)在遇到矛盾证据时修订、覆盖或删除先前存储的信息

本研究聚焦于前三个维度,排除了冲突解决维度。这是因为目前缺乏真实的评估基准——现有的冲突解决数据集主要是合成的,未能充分捕捉真实世界的复杂性。研究团队收集并整理了来自不同源头的八个数据集,处理到统一的范式,最后构造了一个完善的数据集并保证与MemoryAgentBench的测试集没有交织,涵盖了以上的前三个维度进行训练。

实验结果

主实验:性能与泛化能力

Mem-α 在 30k tokens 上训练,在验证集(验证集也是<30k tokens的)上的效果如下:

在测试集上的效果如下:

四个关键发现

1.全面超越现有方法:Mem-α 在所有评测任务中均显著领先于基线模型。在 MemoryAgentBench 的 精确检索(Accurate Retrieval) 与 长期理解(Long-Range Understanding) 两个维度上表现尤为突出,展现出对未见分布的强泛化能力——证明强化学习训练出的记忆策略不仅“学得好”,还能“迁得远”。

2.效率与性能兼得的记忆压相较于 Long-Context 与 RAG-Top2Mem-α 在保持更高性能的同时,记忆占用减少近 50%

 BookSum 与 InfBench-Sum 等长文理解任务中,语义压缩机制的优势进一步放大,证明其在保真度存储效率之间实现了理想平衡

3.结构化记忆的决定性作实验显示,使用单一段落表示的扁平记忆基线(MEM1MemAgent)在复杂任务上表现受限。相比之下,Mem-α 记忆架构让模型能够区分核心、情景与语义信息层次,配合强化学习优化策略,大幅提升了复杂信息的组织与检索能力

4.极强的长度外推能力尽管训练仅基于平均长度小于 30K tokens 的样本,Mem-α 却能稳定泛化至超过 400K tokens的超长文档(MemoryAgentBench 最长达 474K tokens)。这意味着模型不仅学会了如何记忆,还具备了对极端长序列的推理鲁棒性——在记忆建模领域首次实现真正意义上的长度外推

消融实验:从“不会用记忆”到“学会管理记忆”

在消融实验中,研究团队对比了Qwen3-4B 在强化学习训练前后的表现。结果显示,在引入 Mem-α 之前,模型虽然具备完整的记忆模块,却几乎不知道如何正确使用它们——平均准确率仅为 38.9%,工具调用频繁出错,核心与语义记忆更新紊乱。而经过 Mem-α 训练后,模型的表现出现质变:准确率跃升至 64.2%,能够主动选择合适的记忆类型与操作顺序,实现了真正意义上的“自主记忆管理”。这一结果证明,强化学习不仅提升了任务表现,更赋予模型理解和优化自身记忆行为的能力。

从工程到学习:智能体记忆的未来

Mem-α 让我们看到一个重要趋势:“记忆管理不再是工程问题,而是可以被学习的问题。”

通过强化学习信号,模型不再依赖人工设计的规则,而是通过交互自行演化出有效的记忆策略。这项研究为记忆增强智能体打开了新的方向——未来,类似的机制或许可以扩展到多模态记忆(图像、音频)、个性化记忆策略甚至多智能体协作记忆系统。正如论文作者所言,Mem-α 的意义在于让智能体第一次真正理解自己的记忆。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mem-α 大语言模型 记忆管理 强化学习 自主学习 LLM Memory Management Reinforcement Learning Autonomous Learning
相关文章