原创 让你更懂AI的 2025-11-01 23:30 北京
让值函数不再沿时间回传,而在空间中直接合成。
强化学习似乎注定要沿时间一层层回传。但 Sergey Levine 团队发现,值函数并不需要回到过去——它可以被“对半合成”。Transitive RL 让强化学习第一次跳出了时间的诅咒。
强化学习似乎注定要沿时间一层层回传。但 Sergey Levine 团队发现,值函数并不需要回到过去——它可以被“对半合成”。Transitive RL 让强化学习第一次跳出了时间的诅咒。

🧠 **摆脱时间回传,实现空间合成:** Transitive RL的核心创新在于打破了强化学习中值函数必须沿时间轴回传的传统范式。它提出值函数可以通过对“空间结构”进行“对半合成”来学习,将长序列的价值估计转化为几何拼合问题,显著降低了计算复杂度,并能有效解决长地平线任务中的误差累积。
📈 **理论与实践的突破:** 在理论上,TRL将Bellman递归的复杂度从O(T)大幅降低至O(log T),这意味着在处理超长任务时,其计算效率和稳定性将远超传统方法。实践中,TRL首次在3000步的超长任务上实现了稳定收敛,这在以往是难以想象的,为解决复杂、长期的决策问题提供了可能。
🚀 **关键机制与稳定性:** TRL的成功归功于多项关键机制:通过“传递式Bellman更新”实现值的空间组合;采用“软极大近似”(expectile regression)抑制过估计,提高训练稳定性;限制在“轨迹内选择子目标”避免了离线学习中常见的分布偏移问题;以及“动态加权”引导模型先学习短距离子问题再逐步拼合长路径,形成自底向上的规划学习过程。
🌟 **广泛适用性与未来展望:** 尽管TRL在长地平线任务上表现突出,它在标准基准任务(如OGBench)上也展现出强大的竞争力,与主流方法匹配甚至超越。这表明TRL的分而治之方法不仅适用于极端情况,也具备普遍的稳健性。TRL代表了值函数学习范式上的结构性转变,将强化学习从“依赖序列”转向“理解关系”,为未来的策略优化研究提供了新的视角和可能。
原创 让你更懂AI的 2025-11-01 23:30 北京
让值函数不再沿时间回传,而在空间中直接合成。
强化学习似乎注定要沿时间一层层回传。但 Sergey Levine 团队发现,值函数并不需要回到过去——它可以被“对半合成”。Transitive RL 让强化学习第一次跳出了时间的诅咒。
在强化学习中,时间曾经是学习的基础,也是很多问题的来源。几乎所有值函数更新,无论是最早的时间差分方法,还是各种 n 步回报与混合策略,本质上都在沿时间轴递归传播。
这条时间链支撑了学习的框架,却也制造了误差的累积。当地平线足够长时,每一次 Bellman 更新都会引入偏差,而这些偏差会沿着时间无限放大。偏差积累、方差飙升、训练不稳——这是强化学习永恒的三角困境。
多年来,研究者在 TD 与 Monte Carlo 之间反复折中,但始终没有真正跳出时间的线性回溯。
直到 UC Berkeley 的 Sergey Levine 团队提出了一个反直觉的想法:值函数的学习不一定要沿时间传播,它可以从“空间结构”出发被分而治之地合成。他们称之为 Transitive RL(传递式强化学习),将长期目标的学习重构为几何拼合问题。
在理论上,这种方法把 Bellman 递归的复杂度从 降至 ;在实践上,它让离线强化学习在 3000 步的超长任务上首次稳定收敛。
▲ 图1. Transitive RL 的核心思想:从时间回传到空间分治
TD、TD-n 与 TRL 在地平线递归深度上的对比。TRL 理论上可将 O(T) 递归压缩为 O(log T)。
论文标题:
Transitive RL: Value Learning via Divide and Conquer
论文链接:
https://arxiv.org/pdf/2510.22512
强化学习的根基是时间差分更新:
这条递归定义了学习的方向——从未来回传到现在。然而,当地平线延长,每一次更新都会将近似偏差向前传递。结果是:越长的任务,误差越难以消散。
Monte Carlo 方法通过完整回报消除了偏差,却带来巨大方差;TD-n 折中二者,却需要人工调节 n。所有方案仍困在同一条时间轴上。
作者团队意识到,如果从空间几何角度重新审视值函数,也许能彻底摆脱时间的约束。
方法:从时间递归到空间合成
2.1 几何直觉:值函数也能满足“三角不等式”
在目标导向强化学习(Goal-conditioned RL, GCRL)中,智能体的目标是从状态 到达目标 。最短步数函数 天然满足三角不等式:
如果 在 到 的最短路径上,那么经过 不会更远。作者进一步指出,值函数同样遵循这种可分性:
整体路径的价值可以由中间点 的两段值函数乘积近似。这为“分而治之”(divide-and-conquer)的递归打开了空间。
2.2 Transitive Bellman 更新
基于上述几何关系,作者提出传递式 Bellman 更新:
并进一步推广到动作值函数:
2.3 抑制过估计:从硬最大到软极大
直接取 易导致过估计。TRL 采用期望分位回归(expectile regression)进行软极大近似:
其中 为 expectile 损失, 是目标网络(target network)。当 时,它近似最大化高值但梯度更平滑,从而抑制离群放大。
2.4 子目标选择:只在轨迹中分治
TRL 不在全状态空间搜索 ,而是在同一条轨迹中选择中间状态。这种“轨迹内子目标”确保所有更新均基于可达状态,避免了离线学习中最常见的分布偏移。
2.5 完整损失与动态加权
TRL 的最终训练目标定义为:
其中权重项:
权重 使模型先聚焦短距离子问题,再逐步拼合长路径,形成“自底向上”的动态规划式学习过程。
▲ 图2. TRL 的核心训练流程。算法通过在轨迹中选择中间状态 w 实现分而治之的 Q 值更新。
实验结果
3.1 长地平线:TRL 真的能“跳步骤”
作者首先在 humanoidmaze-giant 与 puzzle-4×5、4×6 等超长地平线任务上对比 TRL 与 TD-n、MC 等值学习范式。
结果表明,TRL 在 3000 步级别的地平线上仍能稳定收敛;TD-n 随着 n 增大带来偏差累积与训练不稳,MC 则方差过大,整体不具可行性。
▲ 图3. TRL 在长地平线任务上的表现:TRL 无需手动设 n 即可匹配或超越调参后的最优 TD-n,验证了分而治之更新的稳定性。
▲ 表1. 长地平线任务主结果:TRL 在 humanoid 与 puzzle 系列任务上整体领先。
▲ Humanoid 长地平线表现:展示 TRL 在 humanoidmaze-giant 上的训练与收敛过程。
▲ Maze puzzle 任务表现:展示 TRL 在拼图迷宫 (4×5、4×6) 任务中的训练与收敛表现。
这些证据共同说明:通过子目标的空间合成替代时间回传,能显著抑制长链误差,并在高维控制任务中保持良好稳定性。
3.2 标准基准:在 OGBench 上仍具竞争力
虽然 TRL 并非为短地平线任务特化,在标准 OGBench 任务上依然能与主流 GCRL 方法匹配或超越。这说明分而治之的值函数更新不仅适用于极端长地平线,在常规任务上也具备稳健性。
▲ 图4. 标准 OGBench 任务表现:TRL 在标准 OGBench 任务上表现强劲:即便非专为短地平线设计,仍可匹配或超越既有 GCRL 方法。
▲ 表2. OGBench 全结果表:展示 TRL 在标准 OGBench 任务上的完整结果。
3.3 组件消融:关键机制缺一不可
作者进一步做了三组件消融实验,分析各组成对性能的影响:
软极大(expectile, ):替代硬 ,缓解过估计并提升稳定性;
轨迹内子目标(behavioral subgoals):限制在可达状态,避免分布外更新导致的震荡;
距离加权(distance weighting, ):先学近距离,再逐步拼合长路径,稳定训练过程。
▲ 图5. 消融实验:三组件的去除或替换都会显著影响性能,验证了 TRL 的关键设计选择。
结语
Transitive RL 代表了强化学习在值函数学习范式上的结构性转折。它提出了一种区别于 TD 与 Monte Carlo 的第三类更新机制:不再依赖时间差分回传,而通过空间中的子目标拼合实现值函数估计。
这种“分而治之”的结构让 Bellman 更新由线性递归变为对数深度组合,理论上降低误差累积,实践中显著提升了长地平线任务的稳定性。
更重要的是,TRL 重新定义了值函数的语义边界——它不再是时间维度上的折现估计,而是状态空间中的结构化重组。这种视角让强化学习从“依赖序列”转向“理解关系”,为后续基于空间几何的策略优化提供了新的路径。
在离线强化学习仍受限于偏差与收敛性的今天,TRL 的工作展示了一种可推广的、几乎不依赖时间回传的稳定框架。它可能成为未来长地平线任务中,价值估计与目标分解研究的新的出发点。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑