研究提出了一种名为递归自聚合(RSA)的新型推理框架,旨在弥合并行探索和顺序精炼在大型语言模型(LLM)推理中的短板。RSA将多条推理链的正确片段进行“基因重组”,即使是Qwen3-4B这样的小模型,也能在不依赖外部验证器的情况下,逼近头部模型的表现。该方法通过将“并行的多样性”与“顺序的深度”闭环,实现了性能的单调且可预期的提升,为低算力场景下的模型增强提供了新思路。
💡 **递归自聚合(RSA)的创新机制**:RSA 被形象地比喻为“思维基因重组机”,它通过将多条推理链中的正确片段进行聚合,生成更优的“后代”模型。这种方法巧妙地结合了并行探索的广度和顺序精炼的深度,打破了两者以往的互斥关系,使得模型能够在一个递归的循环中不断优化其推理能力。
🚀 **赋能轻量级模型,缩小能力差距**:RSA 的一个显著优势在于其对模型家族的通用性。通过将 RSA 应用于 Qwen3-4B 等轻量级模型,研究发现其推理能力大幅提升,甚至能媲美一些大型模型在未集成 RSA 时的表现。这表明 RSA 是一种通用的控制流增益技术,能够有效提升模型在低算力环境下的表现,具有重要的实践意义。
📈 **性能提升的可控性与可兑现性**:RSA 的性能提升呈现出单调且可预测的特点。随着递归步数 T 的增加,模型在各项任务上的准确率(如 Pass@1)总体呈上升趋势。虽然聚合集合大小 K 的边际收益会递减,但通过调整 T 和 K 的比例,可以在固定计算预算下实现最优的性能提升,使得 RSA 的收益“可控可兑付”。
🛠️ **部署实践与边界考量**:RSA 更适用于中间步骤可复用、可验证的任务,如数学证明、编程题、规划与博弈等。对于多选题这类答案本身即验证器的场景,多数投票法可能更具性价比。在部署时,建议优先增加递归步数 T,并适当调整聚合集合 K,以在有限资源下最大化性能。
🧠 **从“更会选”到“更会合”的范式转变**:RSA 的核心价值在于它改变了推理的本质,从单纯的“多尝试选最优”转变为“多拼合成更优”。它证明了模型内部的隐式自证能力足以承担“聚合者”的角色,为 test-time scaling 研究开辟了新的方向,强调了通过更多思维节律来深挖模型智慧的可能性。
原创 让你更懂AI的 2025-09-29 14:31 北京
轻量模型的深度时刻
当“并行分叉”和“逐步自省”不再互斥,Recursive Self-Aggregation(RSA)像一台“思维基因重组机” ,把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这类小模型,在无需外部验证器的前提下,也能逼近头部推理模型的无-RSA 表现。
“测试时扩展”(test-time scaling)这两年像是一条通往更强推理力的高速路:一条车道是 并行探索 ——采样若干条候选、做多数投票或挑最优;另一条车道是 顺序精炼 ——让模型自我反思、逐步纠错。遗憾的是,二者各擅胜场却互有短板:并行法覆盖广但“挖得浅”,顺序法专注深挖却缺乏分叉探索。 Recursive Self-Aggregation(RSA) 试图打通两条车道。 它来自 Mila/蒙特利尔大学 联合 LLNL、爱丁堡大学 等机构的合作, Yoshua Bengio 参与其中。 论文团队 把推理看作一个“群体演化”的过程 :每一代都从候选解集合中抽取多个小子集,由 同一个模型 对它们进行 自聚合 ,生成更优的“后代”;多代演化后,再从终态种群中选择答案。 换句话说,RSA 把 “
并行的多样性 ” 和“
顺序的深度 ” 做了一个
闭环 ,既保留“分叉搜索”的覆盖面,又把“逐步自省”的长处嵌入到每一次聚合之中。 这条路的“野心”,在于用 极少的工程脚手架——不依赖外部判分器、不更改模型权重——去获得单调且可预期的性能提升。
论文标题: Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models 论文链接: https://rsa-llm.github.io/static/pdfs/Recursive_Self_Aggregation.pdf 项目主页: https://rsa-llm.github.io/ 代码链接: https://github.com/HyperPotatoNeo/RSA
并行 vs. 顺序的“半壁江山”,缺一角的拼图
并行扩展 (Best-of-N、多数投票、拒绝采样等)优点是覆盖面广、易并行;缺点是很少复用不同候选链条里那些 “
局部正确 ” 的中间步骤。
顺序扩展 (自我反思/自我润色)优点是能进行 纵深修正 ;缺点是 缺少分叉 ,一旦陷入错误思路就可能“越走越对错”。一些混合方法尝试把两者拼在一起,但通常 依赖外部验证器 (如裁判模型或程序化测试器),或者对推理链结构做强假设,泛化有限。 把这两条路放到同一张“地图”上看,会更清楚:论文将 test-time scaling 概括为 并行(parallel)/顺序(sequential)/混合(hybrid) 三类控制流,并强调很多既有方法借助外部或学习到的验证器来甄别候选,这也解释了为何“只靠模型自身进行聚合”的路线一直稀缺而关键。 ▲ 图1. 测试时扩展的三类控制流
并行方法在多候选中择优 (常依赖外部/学习到的验证器);顺序方法在单条链上迭代修正;混合方法把“分叉 + 精炼”组合,但多伴随外部验证或复杂脚手架。
该“方法图谱”为下文的 RSA 铺垫——它尝试在不依赖外部验证器的前提下,以“递归自聚合”的方式把并行的多样性与顺序的深度闭环起来。
顺着这幅“地图”,就更容易看清 RSA 的切口:它并非再造一个更强的“裁判”,而是让 同一个模型 在每一步都把若干候选链 “
聚合成更好的后代 ” ,并通过
递归 更新让“跨链一致的正确片段”逐步扩散、反复出现的错误模式被自然稀释。 换句话说,它把“分叉探索”与“逐步自省 ”
收拢进同一条控制流 ,补上了混合范式中长期缺失的那一角。
把“思维链”做成可重组的“拼图”
1. RSA的三要素:N、K、T
RSA 的算法构件极其克制: 种群大小
、聚合集合大小 、递归步数 。 先说初始化:给定问题
,参考模型(可与被测模型相同)独立生成 条初始推理链,作为第一代种群 : 接着进入第 代:从当前种群 中 无放回抽取
个子集,每个子集大小为 : 把“ 问题+子集
”拼接成聚合提示,喂给同一个参考模型,产出新一代候选: ▲ 图2. RSA Pipeline / 工作流
RSA 将“并行探索(多条链)”与“顺序深挖(递归聚合)”闭环在一起:每代从种群采 个大小为 的子集,以聚合提示生成“后代”,递归 代后从终态种群中选答案。 终止策略 很朴素:在
中均匀采样一个答案(论文主结果均采用该策略),或进行简单多数投票。直觉上,随着 增加, “跨链一致的中间步骤”在种群中的频次会提高,成为显性基因;而“反复出错的片段”被聚合过程自然稀释掉。
2. 为什么“越聚越好”?一个可视化直觉 把每条推理链想象成一串标注为“对/错”的珠子。并行抽 条链,模型在聚合提示下去 “识别并拼接”这些链条里一致的正确片段,丢弃分歧处与错误段。重复
次,正确片段的 相对频次不断上升,群体中“优良基因”扩散开来。这解释了为什么 RSA 的收益随步数
单调上升 (后文在实验里会看到具体曲线)。
初始化 ,循环 ,子集抽样 聚合提示 生成“后代”更新 ,最终在 选答。 小结: 控制多样性池的 宽度,
决定“基因重组”的 强度,
决定“正确基因”的 传播时间。预算固定时,宁可略减
、把 堆高一些,常更划算(证据见实验部分的“步数曲线”)。 3. “让模型学会聚合”的RL版本(聚合感知训练) 如果训练目标只优化 “直接答对”,而测试时却让模型先看一组候选再聚合,就会出现训练—推理错配。论文在 RL 框架下把“聚合”写进目标:先用参考策略采样
条候选形成聚合集 ,然后最大化: 直观地说,策略直接在 条件分布
上学习 “聚合偏好”:见到“多链上下文”时更倾向保留跨链一致的中间步骤;同时用 KL 将行为锚在参考策略上,避免学出过度的“聚合口癖”。实作可用 RLOO/PPO/GRPO 等优化器(论文主实验采用 RLOO)。
▲ 表1. 实验主结果