据谷歌官方消息,NeurIPS 2025 收录了该公司提出的一项重磅研究,其团队提出 Nested Learning(嵌套学习)新方法,旨在解决机器学习中的 “灾难性遗忘” 问题。
该方法打破模型架构与优化算法分离的传统框架,将模型视为相互关联的多层嵌套优化问题,通过多时间尺度更新和连续内存系统,实现新旧知识的协同保留。

嵌套学习允许大脑的每个组成部分进行多时间尺度的更新,同时表明诸如 Transformer 等众所周知的架构,实际上是具有不同更新频率的线性层。嵌套学习模型中的统一结构与多频率更新机制,与人脑的神经波动与神经可塑性结构十分相似。它使我们能够在人工模型中定义「多时间尺度更新」:每个学习组件可在不同频率下更新参数。通过定义「更新频率」,即每个组件参数被调整的频率,我们可以将这些优化问题组织成有序的层级结构。
作为概念验证的 Hope 架构,基于该方法设计而成,具备自修改能力与无限循环学习层级。

实验表明,Hope 在语言建模、常识推理及长上下文任务中,性能显著优于 Transformer、Mamba2 等现有最优模型。该范式为新一代自改进 AI 提供了坚实基础,有望缩小当前大模型与人类持续学习能力的差距。
