AI持续学习新知

2025-10-13 21:34 湖北

今天分享MIT力作《Self-Adapting Language Models》AI可在部署后持续吸收新知识、适应新任务，无需重新训练即可自主进化内部表征。

SEAL项目的部分研究者现已加入OpenAI。👀 这并非巧合。

🔥 GPT-6不仅会更聪明，它可能将拥有“生命”（在计算意义上）。

SEAL的架构使模型能够：

实时从新数据中学习

自我修复衰退知识

跨会话形成持久“记忆”

若GPT-6整合该技术，它将不止于使用信息，更会吸收并化为己用。一个能随世界变化而适应的模型，一个每日持续精进的系统。

当前的大语言模型（LLMs）虽然在预训练后表现强大，但它们是静态的：

❌ 不能主动更新知识

❌ 不能适应新任务

❌ 不能“自我学习”

现有方法要么依赖人类标注数据，要么只能做上下文学习（ICL），无法真正持久地改变模型行为。

🧪 SEAL 的核心思想：模型自己生成“训练指令”

SEAL（Self-Adapting LLMs）框架的核心是：

让模型自己生成“自编辑（self-edit）”——即合成训练数据 + 优化指令，然后用它来微调自己。

🔁 框架流程

图1：SEAL框架图输入上下文（如一段新文章或几个示例）

模型生成 self-edit（如“生成这段文章的推论”或“用QA格式重写”）

用 self-edit 做 LoRA 微调

在下游任务上评估性能

用强化学习（ReSTEM）奖励“好”的 self-edit

✅ 场景1：知识吸收（Knowledge Incorporation）

目标：让模型记住一段新文章，无需上下文就能回答相关问题

数据集：SQuAD（无上下文版本）

self-edit 示例：生成文章的“推论”或“问答对”

✅ SEAL 用更小的模型（7B）超越了 GPT-4.1 的合成数据！

图4：SEAL在RL训练中逐步超越GPT-4.1

知识吸收示例✅ 场景2：小样本推理（Few-shot Learning）目标：用极少示例让模型学会一个新任务

数据集：ARC-AGI 子集

self-edit 示例：选择数据增强策略 + 优化超参（如学习率、epoch）

✅ SEAL 自动学会了如何增强数据 + 如何训练自己，大幅超越基线！

图3：Few-shot任务中的self-edit示例