PaperWeekly 09月29日 23:48
递归自聚合:小模型也能实现深度推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

研究提出了一种名为递归自聚合(RSA)的新型推理框架,旨在弥合并行探索和顺序精炼在大型语言模型(LLM)推理中的短板。RSA将多条推理链的正确片段进行“基因重组”,即使是Qwen3-4B这样的小模型,也能在不依赖外部验证器的情况下,逼近头部模型的表现。该方法通过将“并行的多样性”与“顺序的深度”闭环,实现了性能的单调且可预期的提升,为低算力场景下的模型增强提供了新思路。

💡 **递归自聚合(RSA)的创新机制**:RSA 被形象地比喻为“思维基因重组机”,它通过将多条推理链中的正确片段进行聚合,生成更优的“后代”模型。这种方法巧妙地结合了并行探索的广度和顺序精炼的深度,打破了两者以往的互斥关系,使得模型能够在一个递归的循环中不断优化其推理能力。

🚀 **赋能轻量级模型,缩小能力差距**:RSA 的一个显著优势在于其对模型家族的通用性。通过将 RSA 应用于 Qwen3-4B 等轻量级模型,研究发现其推理能力大幅提升,甚至能媲美一些大型模型在未集成 RSA 时的表现。这表明 RSA 是一种通用的控制流增益技术,能够有效提升模型在低算力环境下的表现,具有重要的实践意义。

📈 **性能提升的可控性与可兑现性**:RSA 的性能提升呈现出单调且可预测的特点。随着递归步数 T 的增加,模型在各项任务上的准确率(如 Pass@1)总体呈上升趋势。虽然聚合集合大小 K 的边际收益会递减,但通过调整 T 和 K 的比例,可以在固定计算预算下实现最优的性能提升,使得 RSA 的收益“可控可兑付”。

🛠️ **部署实践与边界考量**:RSA 更适用于中间步骤可复用、可验证的任务,如数学证明、编程题、规划与博弈等。对于多选题这类答案本身即验证器的场景,多数投票法可能更具性价比。在部署时,建议优先增加递归步数 T,并适当调整聚合集合 K,以在有限资源下最大化性能。

🧠 **从“更会选”到“更会合”的范式转变**:RSA 的核心价值在于它改变了推理的本质,从单纯的“多尝试选最优”转变为“多拼合成更优”。它证明了模型内部的隐式自证能力足以承担“聚合者”的角色,为 test-time scaling 研究开辟了新的方向,强调了通过更多思维节律来深挖模型智慧的可能性。

原创 让你更懂AI的 2025-09-29 14:31 北京

轻量模型的深度时刻

当“并行分叉”和“逐步自省”不再互斥,Recursive Self-Aggregation(RSA)像一台“思维基因重组机”,把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这类小模型,在无需外部验证器的前提下,也能逼近头部推理模型的无-RSA 表现。

“测试时扩展”(test-time scaling)这两年像是一条通往更强推理力的高速路:一条车道是并行探索——采样若干条候选、做多数投票或挑最优;另一条车道是顺序精炼——让模型自我反思、逐步纠错。遗憾的是,二者各擅胜场却互有短板:并行法覆盖广但“挖得浅”,顺序法专注深挖却缺乏分叉探索。

Recursive Self-Aggregation(RSA)试图打通两条车道。它来自 Mila/蒙特利尔大学联合 LLNL、爱丁堡大学等机构的合作,Yoshua Bengio 参与其中。

论文团队把推理看作一个“群体演化”的过程:每一代都从候选解集合中抽取多个小子集,由同一个模型对它们进行自聚合,生成更优的“后代”;多代演化后,再从终态种群中选择答案。

换句话说,RSA 把并行的多样性和“顺序的深度做了一个闭环,既保留“分叉搜索”的覆盖面,又把“逐步自省”的长处嵌入到每一次聚合之中。

这条路的“野心”,在于用极少的工程脚手架——不依赖外部判分器、不更改模型权重——去获得单调且可预期的性能提升。

论文标题:

Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models

论文链接:

https://rsa-llm.github.io/static/pdfs/Recursive_Self_Aggregation.pdf

项目主页:

https://rsa-llm.github.io/

代码链接:

https://github.com/HyperPotatoNeo/RSA

并行 vs. 顺序的“半壁江山”,缺一角的拼图

并行扩展(Best-of-N、多数投票、拒绝采样等)优点是覆盖面广、易并行;缺点是很少复用不同候选链条里那些局部正确的中间步骤。

顺序扩展(自我反思/自我润色)优点是能进行纵深修正;缺点是缺少分叉,一旦陷入错误思路就可能“越走越对错”。一些混合方法尝试把两者拼在一起,但通常依赖外部验证器(如裁判模型或程序化测试器),或者对推理链结构做强假设,泛化有限。

把这两条路放到同一张“地图”上看,会更清楚:论文将 test-time scaling 概括为并行(parallel)/顺序(sequential)/混合(hybrid)三类控制流,并强调很多既有方法借助外部或学习到的验证器来甄别候选,这也解释了为何“只靠模型自身进行聚合”的路线一直稀缺而关键。

▲ 图1. 测试时扩展的三类控制流

并行方法在多候选中择优(常依赖外部/学习到的验证器);顺序方法在单条链上迭代修正;混合方法把“分叉 + 精炼”组合,但多伴随外部验证或复杂脚手架。

该“方法图谱”为下文的 RSA 铺垫——它尝试在不依赖外部验证器的前提下,以“递归自聚合”的方式把并行的多样性与顺序的深度闭环起来。

顺着这幅“地图”,就更容易看清 RSA 的切口:它并非再造一个更强的“裁判”,而是让同一个模型在每一步都把若干候选链聚合成更好的后代,并通过递归更新让“跨链一致的正确片段”逐步扩散、反复出现的错误模式被自然稀释。

换句话说,它把“分叉探索”与“逐步自省收拢进同一条控制流,补上了混合范式中长期缺失的那一角。

把“思维链”做成可重组的“拼图”

1. RSA的三要素:N、K、T

RSA 的算法构件极其克制:种群大小 、聚合集合大小 、递归步数 先说初始化:给定问题 ,参考模型(可与被测模型相同)独立生成  条初始推理链,作为第一代种群 

接着进入第  代:从当前种群  中无放回抽取 个子集,每个子集大小为 

把“问题+子集 ”拼接成聚合提示,喂给同一个参考模型,产出新一代候选:

▲ 图2. RSA Pipeline / 工作流

RSA 将“并行探索(多条链)”与“顺序深挖(递归聚合)”闭环在一起:每代从种群采  个大小为  的子集,以聚合提示生成“后代”,递归  代后从终态种群中选答案。

终止策略很朴素:在  中均匀采样一个答案(论文主结果均采用该策略),或进行简单多数投票。直觉上,随着  增加,“跨链一致的中间步骤”在种群中的频次会提高,成为显性基因;而“反复出错的片段”被聚合过程自然稀释掉。

2. 为什么“越聚越好”?一个可视化直觉

把每条推理链想象成一串标注为“对/错”的珠子。并行抽  条链,模型在聚合提示下去“识别并拼接”这些链条里一致的正确片段,丢弃分歧处与错误段。重复  次,正确片段的相对频次不断上升,群体中“优良基因”扩散开来。这解释了为什么 RSA 的收益随步数  单调上升(后文在实验里会看到具体曲线)。

▲ 图3. RSA递归伪代码/流程示意

初始化 ,循环 ,子集抽样  聚合提示  生成“后代”更新 ,最终在  选答。

小结: 控制多样性池的宽度, 决定“基因重组”的强度, 决定“正确基因”的传播时间。预算固定时,宁可略减 、把  堆高一些,常更划算(证据见实验部分的“步数曲线”)。

3. “让模型学会聚合”的RL版本(聚合感知训练)

如果训练目标只优化“直接答对”,而测试时却让模型先看一组候选再聚合,就会出现训练—推理错配。论文在 RL 框架下把“聚合”写进目标:先用参考策略采样  条候选形成聚合集 ,然后最大化:

直观地说,策略直接在条件分布  上学习“聚合偏好”:见到“多链上下文”时更倾向保留跨链一致的中间步骤;同时用 KL 将行为锚在参考策略上,避免学出过度的“聚合口癖”。实作可用 RLOO/PPO/GRPO 等优化器(论文主实验采用 RLOO)。

不是“更会投票”,而是真在“深度整合”

跨任务主结果:RSA的“深度收益”

论文主结果统一采用 。对比参考模型、拒绝采样、自我润色、多数投票、单步自聚合()与递归自聚合(),RSA 在数学(AIME/HMMT)、代码(LiveCodeBench)、综合推理(Reasoning Gym)等任务上全面超越多数基线。

▲ 表1. 实验主结果

RSA(T=10)在大多数任务上显著优于拒绝采样、自我润色与投票;T=1 的单步聚合明显不如递归版本,说明递归本身带来“深度收益”。

“小模型反杀”与模型无关性

更有趣的是,把 RSA 套在 Qwen3-4B-Instruct 这类“轻量模型”上,也能获得非常可观的提升,逼近甚至打平一些大型/思维强化模型的无-RSA表现。对不同家族(指令/思维)模型的提升具有一致性,说明 RSA 更像一种通用控制流增益,而非对某类模型的“外挂补丁”。

▲ 图4. 跨模型增益

在 AIME-25 与 LiveCodeBench-v6 上,不同模型(如 Qwen3-4B/30B、GPT-OSS-20B、Nemotron-9B 等)在加 RSA 后均获得显著 ΔPass@1;小模型涨幅尤为亮眼。

步数 T 的“单调曲线”与 K 的边际

RSA 的“可控可兑付”体现在步数—收益曲线上。随 T 增加,Pass@1 总体单调上升;K 从 1→2 的提升最显著,K≥3 边际递减。极少数任务在 T 过大时略有回落,通常与任务结构与上下文窗口利用有关。

▲ 图5. 步数与K的影响

随步数 T 增加,曲线整体单调上升;K 从 1 到 2 的跃升最大,之后边际递减。

何时“投票更香”?SuperGPQA的例外多选题这类“选项即验证器”的场景,多数投票天然占优势:因为“答案层的频率”本身就是强判据。RSA 在此类任务上的优势会被冲淡。这也提示我们:RSA 的核心价值,是在“过程可拆解与可验证”的任务里实现“中间步骤层的自证”(数学、代码、程序合成、规划/博弈等)。

▲ 表1. 投票对比

在 SuperGPQA 等多选类任务,多数投票与 RSA 的差距缩小甚至反超;在“可拆解可验证”的任务(数学/代码)上,RSA 优势明显。

聚合感知RL:闭环之后的加成当训练目标也纳入“聚合”,RSA 的收益还会被进一步放大。这印证了把推理控制流纳入训练域的近年趋势:在训练时就让模型见过“多链聚合”的形式,测试时自然更稳更强。

▲ 图6. 总体效果与RL放大示意/对比

在 AIME、HMMT、Reasoning Gym、LiveCodeBench 等任务上,Base + RSA + RL 在 Pass@1 上对 Base + RSA 实现了进一步放大的增益。

从“更会选”到“更会合”

RSA 的价值,不在于它让投票法更聪明,而在于它改变了思维链的节律。并行扩展强调“覆盖”,顺序精炼强调“深挖”,RSA 则让二者在一个递归循环里交织:候选解像基因一样被反复重组,正确片段在一代代聚合中扩散开来,错误模式逐步被稀释掉。这样一来,推理不再只是“多尝试选最优”,而是“多拼合成更优”。

对于 test-time scaling 的研究,这是一种范式性的转折。过去我们更多依赖外部验证器或复杂脚手架来提高准确率,而 RSA 显示出,大模型内部的隐式自证能力足以承担起“聚合者”的角色。尤其是在数学、代码、博弈这类中间步骤可自证的场景里,总体上它展现出比投票或自我润色更稳定、更单调的性能曲线。

更重要的是,RSA 给了“小模型”一次证明自己的机会。像 Qwen3-4B 这样的轻量模型,在 RSA 的加持下,居然能逼近 DeepSeek-R1 和 o3-mini(high)的表现。这种“低算力环境下的小模型增强”意义非凡:它把过去看似属于大模型的能力,开放给更广泛的应用场景。

实践启示与边界

当然,RSA 不是一剂万能药。它的优势来自于“中间片段的可复用性”,这决定了它更适合那些能拆解出推理链的任务:数学证明、编程题、规划与博弈。如果是多选问答类,答案本身就是验证器,多数投票往往更具性价比。

在部署时,你可以从一个简单的组合开始:种群规模 N 设在十几条,聚合集合 K 不必太大(从 1 到 2 的提升最显著,再往上边际递减),然后把预算更多分配给递归步数 T,让正确片段有时间扩散。这比盲目扩大并行采样更划算。若担心模式塌陷,可以在迭代中注入温度扰动或新链,维持候选多样性。

把 RSA 融入训练是更进一步的选择。论文提出的“聚合感知 RL”已经显示出优势:训练时就让模型见过“多链聚合”的形式,测试时它自然能更稳妥地把分散的片段合并成完整的答案。不过这需要控制好 KL 系数,避免模型学出过度的“聚合口癖”。

换句话说,RSA 的故事告诉我们:推理的提升,不仅仅是“更会选”,更在于“更会合”。如果说过去的 scaling law 让我们在参数和算力的纵轴上不断攀升,那么 RSA 打开了横轴上的另一条路——如何用更多的思维节律,把已有的模型,熬出更深的智慧

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

递归自聚合 RSA 大型语言模型 LLM 推理能力 小模型 模型增强 test-time scaling Recursive Self-Aggregation Large Language Models LLM Reasoning Capability Small Models Model Enhancement
相关文章