原创 让你更懂AI的 2025-08-14 23:53 河北
从“辩论”到“均衡”
当前,通过 prompt 引导多个大语言模型(LLM)进行协作,如多智能体辩论(Multi-agent Debate),已被证明能显著增强模型的复杂推理能力。
然而,基于“显式多轮信息交互“的多模型框架普遍面临三大挑战:
1. 高昂的通信成本:智能体之间频繁的显式信息交换消耗大量 token,计算开销巨大。
2. 缺乏收敛保证:协作过程缺乏明确的理论保障,性能有时不稳定,甚至可能不如单体方法。
3. 扩展性受限:多轮交互产生的信息量随智能体数量增加而急剧膨胀,容易超出 LLM 的上下文窗口限制。
如图 1 所示,多智能体辩论(MAD)依赖于 LLM 之间的多轮显式的消息传递,这种模式不仅效率低下,而且难以扩展。
▲ 图1. 多智能体协作方法对比。上为传统的多智能体辩论(MAD),依赖高昂的通信开销。下为本文提出的 ECON,基于信念的协调机制取代直接通信。
为解决上述挑战,我们提出将多 LLM 协作问题重塑为一个不完全信息博弈,并寻求其贝叶斯纳什均衡(Bayesian Nash Equilibrium,BNE)。
在 BNE 状态下,每个智能体根据其对其他智能体策略的“信念”来做出最优决策,从而无需进行昂贵的直接通信。基于此思想,我们设计了 ECON(Efficient Coordination via Nash Equilibrium)框架。
实验证明,ECON 在六个复杂的推理基准上,性能平均超越现有方法 11.2%,同时相较于 3 轮的多智能体辩论,平均减少 21.4% 的 token 消耗。最后我们通过引入局部-整体纳什均衡,成功扩展到了九个语言模型协同。
总计而言我们的主要贡献如下三点:
新视角:首次将多 LLM 协作问题形式化为不完全信息博弈,引入贝叶斯纳什均衡(BNE)作为其理论基础,并从存在性到收敛性建立了完整的理论框架。
新方法:设计了 ECON 框架,通过“协调者-执行者”的分布式架构和信念网络,在不依赖直接通信的情况下实现 BNE,并通过局部-全局纳什协调机制解决了扩展性瓶颈。
新发现:通过大量实验证明,ECON 在多种复杂推理任务上超越了现有的单智能体和多智能体方法,并验证了其在同异构模型配置下的有效性、成本效益和良好的扩展能力。
接下来,我们将从这三个角度,简要地介绍我们关于多智能体 LLM 高效协作的研究成果,相关论文已被 ICML 2025 会议接收。
论文标题:
From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium
论文链接:
https://arxiv.org/abs/2506.08292
代码链接:
https://github.com/tmlr-group/ECON
新视角:基于贝叶斯纳什均衡(BNE)的协作理论
现有方法大多依赖显式的“完全信息”交互,这在现实中成本高昂。我们认为,一个更贴近现实的设定是,每个智能体都处于不完全信息(Incomplete-information)环境中。
为此,我们将此设定形式化为去中心化部分可观察马尔可夫决策过程(decentralized partially observable Markov decision process)。
在此框架下,我们引入博弈论中的贝叶斯纳什均衡(BNE)作为协作目标。BNE描述了一个稳定状态:每个智能体根据其对其他智能体行为的概率性信念(Belief),选择能最大化自身期望回报的策略。在此均衡下,任何智能体都无法单方面改变策略以获得更好结果。
我们将协作目标定义为寻找 BNE,从而将昂贵的显式通信,转变为高效的、基于内部信念的隐式协调。我们为这一范式提供了坚实的理论保障:
1. BNE 的存在性:我们基于 Glicksberg 不动点定理,从理论上证明了在我们的多 LLM 框架中,BNE 策略组合是必然存在的。
2. 收敛性保证:我们使用遗憾(Regret)来衡量当前策略与最优策略的差距。理论分析表明,ECON 能够实现亚线性遗憾界(Sublinear Regret Bound),这意味着系统能随优化过程持续趋近最优解。相比之下,缺乏均衡保障的传统辩论方法通常对应线性遗憾,性能提升会更快遭遇瓶颈。
新方法:ECON框架的设计与实现
为了在实践中实现 BNE,我们设计了 ECON 框架,它采用“协调者-执行者(Coordinator-Executor)”的层次化架构,并在训练和推理阶段解耦。
▲ 图2. ECON 框架图。左侧为推理流程,右侧为信念网络优化流程。
ECON 框架主要包括以下核心模块:
执行者 LLM(Execution LLMs)与信念网络:多个执行者 LLM 并行独立地进行推理。每个执行者拥有一个信念网络(Belief Network),该网络将其局部历史轨迹映射为一个信念状态,并据此生成最优行动。同时,信念网络也会输出一个局部的 Q 值,用于后续的全局优化。
协调者 LLM(Coordinator LLM):一个中心的协调者LLM负责结构初始问题并提供策略指导(不多于 50token),并在最后整合所有执行者的答案,形成最终输出。
信念编码器与中心化混合网络:在训练阶段,一个共享的信念编码器(Belief Encoder)会聚合所有执行者的信念状态,形成群体表征。
随后,一个中心化混合网络(Centralized Mixing Network)会整合所有局部 Q 值和群体表征,计算出一个全局 Q 值,并指导每个信念网络进行参数更新,从而引导整个系统向 BNE 收敛。这种“中心化训练,分布式执行”的模式是 ECON 效率的关键。
奖励函数设计:我们设计了包含三个部分的综合奖励函数:(1)动作似然奖励,衡量个体输出与最终共识的一致性;(2)任务特定奖励,评估在具体任务上的表现;(3)协作贡献奖励,评估每个智能体对集体解方案的贡献。
新发现:实验结果与分析
我们在 6 个涵盖数学推理、常识推理和复杂规划的基准上对 ECON 进行了全面评测。
1. 推理性能与成本效益
如图 3 所示,ECON 在所有基准上的平均性能优于各类基线方法。在具有挑战性的 TravelPlanner 任务上,ECON(GPT-4)将最终通过率提升至 15.2%,显著高于同样设置下多智能体辩论(MAD)的 7.1%。
在成本方面,与 3 轮辩论的 MAD 相比,ECON 的 token 消耗平均减少了 21.4%。
▲ 图3. 五个推理数据集上的平均准确率对比
▲ 图4. 三个推理数据集上的 token 消耗对比
2. 不同模型配置下的有效性
为了验证 ECON 的泛化能力,我们测试了多种模型配置,包括同构(如 3 个 LLaMA3.1 8B)和异构(如混合使用 Mixtral、Qwen 和 LLaMA)的执行者 LLM。
实验结果表明,尽管异构模型组合因达成 BNE 更具挑战而性能略有下降,但仍显著优于基线方法。这证明 ECON 框架能够有效协调不同能力的模型。
▲ 图5. 同异构语言模型协同实验
3. 可扩展性验证:从局部到全局纳什均衡
我们进一步探究了 ECON 的扩展能力。实验发现,简单地将执行者 LLM 数量增加到 4 个以上时,单个协调者会面临瓶颈,这导致 BNE 无法实现,性能提升有限。
为此,我们引入了局部-全局纳什协调机制:将 9 个执行者分为 3 组,每组由一个局部协调者管理以达成“局部纳什均衡”,再由一个更高层的中心 LLM 整合,实现“全局纳什均衡”。
如图 4 所示,采用此机制后,系统性能得到持续且显著的提升。与基础的 3 执行者配置相比,9 执行者的扩展系统平均性能提升了 18.1%,展示了 ECON 良好的扩展潜力。
▲ 图6. 通过增加协调者和执行者数量,ECON 展现出持续的性能提升。
总结
ECON 框架通过将多 LLM 协作重新建模为寻找贝叶斯纳什均衡的过程,提出了一种无需直接通信的高效协调方法。完整的理论分析和详尽的实验结果表明,该框架在性能、效率和可扩展性方面均表现出强大的能力,为构建大规模、高效的多智能体系统提供了新的思路。
更多的实验分析和技术细节,请移步参阅我们的论文及源码,我们也将持续更新本工作的内容。
课题组介绍
香港浸会大学可信机器学习和推理课题组(TMLR Group)由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信基础模型、可信表征学习、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 Github https://github.com/tmlr-group。
课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局新进学者协作研究补助金、优配研究金和杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的教职科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 bhanml@comp.hkbu.edu.hk。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
