递归自聚合：小模型也能实现深度推理

PaperWeekly 09月29日 23:48

递归自聚合：小模型也能实现深度推理

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

研究提出了一种名为递归自聚合（RSA）的新型推理框架，旨在弥合并行探索和顺序精炼在大型语言模型（LLM）推理中的短板。RSA将多条推理链的正确片段进行“基因重组”，即使是Qwen3-4B这样的小模型，也能在不依赖外部验证器的情况下，逼近头部模型的表现。该方法通过将“并行的多样性”与“顺序的深度”闭环，实现了性能的单调且可预期的提升，为低算力场景下的模型增强提供了新思路。

💡 **递归自聚合（RSA）的创新机制**：RSA 被形象地比喻为“思维基因重组机”，它通过将多条推理链中的正确片段进行聚合，生成更优的“后代”模型。这种方法巧妙地结合了并行探索的广度和顺序精炼的深度，打破了两者以往的互斥关系，使得模型能够在一个递归的循环中不断优化其推理能力。

🚀 **赋能轻量级模型，缩小能力差距**：RSA 的一个显著优势在于其对模型家族的通用性。通过将 RSA 应用于 Qwen3-4B 等轻量级模型，研究发现其推理能力大幅提升，甚至能媲美一些大型模型在未集成 RSA 时的表现。这表明 RSA 是一种通用的控制流增益技术，能够有效提升模型在低算力环境下的表现，具有重要的实践意义。

📈 **性能提升的可控性与可兑现性**：RSA 的性能提升呈现出单调且可预测的特点。随着递归步数 T 的增加，模型在各项任务上的准确率（如 Pass@1）总体呈上升趋势。虽然聚合集合大小 K 的边际收益会递减，但通过调整 T 和 K 的比例，可以在固定计算预算下实现最优的性能提升，使得 RSA 的收益“可控可兑付”。

🛠️ **部署实践与边界考量**：RSA 更适用于中间步骤可复用、可验证的任务，如数学证明、编程题、规划与博弈等。对于多选题这类答案本身即验证器的场景，多数投票法可能更具性价比。在部署时，建议优先增加递归步数 T，并适当调整聚合集合 K，以在有限资源下最大化性能。

🧠 **从“更会选”到“更会合”的范式转变**：RSA 的核心价值在于它改变了推理的本质，从单纯的“多尝试选最优”转变为“多拼合成更优”。它证明了模型内部的隐式自证能力足以承担“聚合者”的角色，为 test-time scaling 研究开辟了新的方向，强调了通过更多思维节律来深挖模型智慧的可能性。

原创让你更懂AI的 2025-09-29 14:31 北京

轻量模型的深度时刻

当“并行分叉”和“逐步自省”不再互斥，Recursive Self-Aggregation（RSA）像一台“思维基因重组机”，把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这类小模型，在无需外部验证器的前提下，也能逼近头部推理模型的无-RSA 表现。

“测试时扩展”（test-time scaling）这两年像是一条通往更强推理力的高速路：一条车道是并行探索——采样若干条候选、做多数投票或挑最优；另一条车道是顺序精炼——让模型自我反思、逐步纠错。遗憾的是，二者各擅胜场却互有短板：并行法覆盖广但“挖得浅”，顺序法专注深挖却缺乏分叉探索。

Recursive Self-Aggregation（RSA）试图打通两条车道。它来自 Mila/蒙特利尔大学联合 LLNL、爱丁堡大学等机构的合作，Yoshua Bengio 参与其中。

论文团队把推理看作一个“群体演化”的过程：每一代都从候选解集合中抽取多个小子集，由同一个模型对它们进行自聚合，生成更优的“后代”；多代演化后，再从终态种群中选择答案。

换句话说，RSA 把“并行的多样性”和“顺序的深度”做了一个闭环，既保留“分叉搜索”的覆盖面，又把“逐步自省”的长处嵌入到每一次聚合之中。

这条路的“野心”，在于用极少的工程脚手架——不依赖外部判分器、不更改模型权重——去获得单调且可预期的性能提升。

论文标题：

Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models

论文链接：

https://rsa-llm.github.io/static/pdfs/Recursive_Self_Aggregation.pdf

项目主页：

https://rsa-llm.github.io/

代码链接：

https://github.com/HyperPotatoNeo/RSA

并行 vs. 顺序的“半壁江山”，缺一角的拼图

并行扩展（Best-of-N、多数投票、拒绝采样等）优点是覆盖面广、易并行；缺点是很少复用不同候选链条里那些“局部正确”的中间步骤。

顺序扩展（自我反思/自我润色）优点是能进行纵深修正；缺点是缺少分叉，一旦陷入错误思路就可能“越走越对错”。一些混合方法尝试把两者拼在一起，但通常依赖外部验证器（如裁判模型或程序化测试器），或者对推理链结构做强假设，泛化有限。

把这两条路放到同一张“地图”上看，会更清楚：论文将 test-time scaling 概括为并行（parallel）／顺序（sequential）／混合（hybrid）三类控制流，并强调很多既有方法借助外部或学习到的验证器来甄别候选，这也解释了为何“只靠模型自身进行聚合”的路线一直稀缺而关键。

▲ 图1. 测试时扩展的三类控制流

并行方法在多候选中择优（常依赖外部/学习到的验证器）；顺序方法在单条链上迭代修正；混合方法把“分叉 + 精炼”组合，但多伴随外部验证或复杂脚手架。

该“方法图谱”为下文的 RSA 铺垫——它尝试在不依赖外部验证器的前提下，以“递归自聚合”的方式把并行的多样性与顺序的深度闭环起来。

顺着这幅“地图”，就更容易看清 RSA 的切口：它并非再造一个更强的“裁判”，而是让同一个模型在每一步都把若干候选链“聚合成更好的后代”，并通过递归更新让“跨链一致的正确片段”逐步扩散、反复出现的错误模式被自然稀释。

换句话说，它把“分叉探索”与“逐步自省”收拢进同一条控制流，补上了混合范式中长期缺失的那一角。

把“思维链”做成可重组的“拼图”

1. RSA的三要素：N、K、T

RSA 的算法构件极其克制：种群大小、聚合集合大小、递归步数。先说初始化：给定问题，参考模型（可与被测模型相同）独立生成条初始推理链，作为第一代种群：

接着进入第代：从当前种群中无放回抽取个子集，每个子集大小为：

把“问题+子集 ”拼接成聚合提示，喂给同一个参考模型，产出新一代候选：

▲ 图2. RSA Pipeline / 工作流

RSA 将“并行探索（多条链）”与“顺序深挖（递归聚合）”闭环在一起：每代从种群采个大小为的子集，以聚合提示生成“后代”，递归代后从终态种群中选答案。

终止策略很朴素：在中均匀采样一个答案（论文主结果均采用该策略），或进行简单多数投票。直觉上，随着增加，“跨链一致的中间步骤”在种群中的频次会提高，成为显性基因；而“反复出错的片段”被聚合过程自然稀释掉。

2. 为什么“越聚越好”？一个可视化直觉

把每条推理链想象成一串标注为“对/错”的珠子。并行抽条链，模型在聚合提示下去“识别并拼接”这些链条里一致的正确片段，丢弃分歧处与错误段。重复次，正确片段的相对频次不断上升，群体中“优良基因”扩散开来。这解释了为什么 RSA 的收益随步数单调上升（后文在实验里会看到具体曲线）。

▲ 图3. RSA递归伪代码/流程示意

如果训练目标只优化“直接答对”，而测试时却让模型先看一组候选再聚合，就会出现训练—推理错配。论文在 RL 框架下把“聚合”写进目标：先用参考策略采样条候选形成聚合集，然后最大化：

直观地说，策略直接在条件分布上学习“聚合偏好”：见到“多链上下文”时更倾向保留跨链一致的中间步骤；同时用 KL 将行为锚在参考策略上，避免学出过度的“聚合口癖”。实作可用 RLOO/PPO/GRPO 等优化器（论文主实验采用 RLOO）。

▲ 图4. 跨模型增益

步数 T 的“单调曲线”与 K 的边际

RSA 的“可控可兑付”体现在步数—收益曲线上。随 T 增加，Pass@1 总体单调上升；K 从 1→2 的提升最显著，K≥3 后边际递减。极少数任务在 T 过大时略有回落，通常与任务结构与上下文窗口利用有关。

▲ 图5. 步数与K的影响

▲ 图6. 总体效果与RL放大示意/对比

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签