PaperWeekly 09月12日
AI主动推理新赛道
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大语言模型在复杂推理任务中表现出色,但主要集中在被动推理。主动推理,即在不完整信息下通过提问获取关键信息,在现实应用中更常见。本文介绍了AR-Bench,一个评估大模型主动推理能力的基准,实验结果显示当前顶尖LLM在这方面存在严重短板。未来研究方向包括提升模型主动推理能力、拓展AR-Bench到更多任务和领域。

🤔 主动推理是LLM亟需探索的新领域,它要求模型在不完整信息下通过提问获取关键信息,解决现实场景中的复杂问题。

🧐 AR-Bench是首个评估LLM主动推理能力的基准,包含侦探案件、情景谜题和数字猜谜三种任务,模拟真实世界的信息获取场景。

📊 实验结果显示,即使是GPT-4o等先进LLM在主动推理方面也表现不佳,甚至需要更多轮交互才能获得有效信息。

🔍 模型在主动推理中存在问出宽泛、无帮助的问题,以及对时间线误解、忽视证据等典型错误。

🚀 未来研究方向包括采集高质量微调数据、将强化学习推理方法应用于主动推理、开发更可靠的验证器等。

让你更懂AI的 2025-09-09 13:41 北京

主动推理新赛道开启

大语言模型(Large Language Model, LLM)在复杂推理任务中表现卓越。借助链式思维(Chain-of-Thought, CoT),LLM 能够将复杂问题分解为简单步骤,充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力,尤其是数学推理和代码生成。

然而,当前针对 LLM 推理能力的研究主要集中于被动推理(Passive Reasoning, PR),即在提供完整信息的前提下让模型进行推理。相比之下,对信息不完备场景下模型推理能力的研究明显不足。

这类场景在实际应用中十分常见,例如侦探需要通过询问和走访获取破案线索,医生需要通过问诊收集诊断依据。我们将这类需要主动获取信息的推理称为主动推理(Active Reasoning, AR)

目前关于 AR 的方法和基准研究较少,探索不足,制约了 LLM 在复杂现实场景中的应用。

如图 1 所示,被动推理是直接从给定的充分信息中求解,而主动推理则需要从不完整的信息出发,通过多轮交互来获取关键线索,最终得出结论。可以说,被动推理的核心是找到答案,而主动推理的核心是提出正确的问题。

▲ 图1. 被动推理(左)与主动推理(右)的示意图

尽管主动推理对实现通用人工智能至关重要,但目前学术界对此关注甚少,LLM 在这方面的能力也亟待一个系统性的评估。为此,我们提出了 AR-Bench,一个旨在全面评估大模型主动推理能力的基准,并进行了一系列深入的实验分析。

我们的主要贡献有如下三点:

1. 新问题我们提出了主动推理这一亟待研究的新问题,并系统定义了其相对于被动推理的核心挑战。

2. 新基准我们提出了专门用于评估主动推理能力的基准 AR-Bench ,系统的测试模型在复杂场景中的主动推理能力。

3. 新发现我们通过在 AR-Bench 上的全面评测,揭示了当前顶尖 LLM 在主动推理方面的普遍且严重的短板,并指出了未来的研究方向。

接下来,我们将简要介绍 TMLR 课题组和斯坦福大学合作的 AR-Bench,并展示我们从广泛地测试实验中提取出来的重要发现,相关论文已发表于 ICML 2025 会议。

论文标题:

From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?

论文链接:

https://arxiv.org/abs/2506.08295

代码链接:

https://github.com/tmlr-group/AR-Bench

新问题:主动推理

传统的 LLM 推理研究,如 CoT,大多遵循被动推理的范式。在这种范式下,模型接收一个包含所有必要信息的问题,然后逐步地推导出最终答案。然而,现实中许多场景都存在着信息不完整的情况。

以医疗诊断为例,医生需要通过与患者互动主动获取症状、病史等关键信息,而非被动接收完整数据。这类信息不完整的场景要求 LLM 通过提问、信息探索和动态交互来补充缺失信息,最终完成推理任务。

我们将这种推理范式定义为主动推理。在 AR 范式下,模型仅获得部分信息,并且必须通过与外部环境(如数据库、API 或人类用户)的交互来主动提问,以获取缺失的关键信息来解决问题。AR 综合了提问、检索和迭代推理,是一个更全面、更动态、更具挑战性的问题解决框架。

对主动推理问题的探索,有助于我们更好地理解和提升 LLM 在真实、复杂场景下的智能水平,推动其从一个被动的文本处理器,转变为一个能够主动解决问题的人工智能体。

▲ 图2. PR 要求模型通过一步步推理从给定的问题得到正确答案,而 AR 要求模型分析当前任务,提出一系列关键的问题来获取重要信息,并利用这些信息得到正确的答案。本质上,PR 的核心要求是根据问题得到正确答案,而 AR 的核心要求是提出正确的问题来获取关键的信息。

新基准:AR-Bench

为了系统地评估和衡量 LLM 的主动推理能力,我们构建了 AR-Bench (Active Reasoning Benchmark)。AR-Bench 旨在模拟真实世界中的信息获取场景,它包含三个不同类型的任务,分别对应三种核心的推理能力:

侦探案件 (Detective Cases, DC):模拟刑事案件调查,模型需要通过提问来搜集线索、分析案情,考验其常识推理能力。

情景谜题 (Situation Puzzles, SP):也被称为 「海龟汤」,模型需要通过 「是 / 否」 问题来揭开一个看似矛盾或离奇情景背后的真相,考验其逻辑推理和发散思维能力。

数字猜谜 (Guessing Numbers, GN):经典的主动推理游戏,模型需要根据反馈猜测一个由不重复数字组成的四位数,考验其符号推理能力。

▲ 图3. AR-Bench 中三种任务的示例

我们的评估框架采用多轮交互范式,其中提问方 LLM 与扮演信息源的 「回答者」 智能体进行动态对话。该评估体系包含两个维度:

结果评估:在 DC 和 GN 任务中判断模型结论与标准答案的匹配度,对于开放式问题 SP 则采用 F1-Score 衡量回答相似度;

过程评估基于预设关键问题(Key Questions),通过 LLM-as-a-judge 方法以交互轮次为粒度评估对话是否有效解决关键问题(适用于 DC 和 SP ),而在 GN 任务中则直接计算反馈信息的数字准确率作为过程评分指标。

这一综合评估方案不仅关注最终答案的正确性,更重视模型在交互过程中提出问题的质量和信息获取的有效性,从而全面刻画模型的主动推理能力。

新发现:大模型主动推理能力严重不足

我们在 AR-Bench 上对包括 GPT-4o 在内的多个先进 LLM,以及基于 prompting 和基于训练的推理方法进行了广泛测试。

实验结果(图 4,5)表明:目前的语言模型和推理方法都无法有效解决 AR-Bench 提出的问题,我们发现:

1. 即使是最先进的 GPT-4o 模型也只能在 GN 任务上达到 35% 的准确率。

2. 细粒度的指导和基于搜索的方法 (ToT)只能提供非常有限的性能提升。

3. 基于训练的方法(SFT, DPO)甚至在一些任务上使模型性能变差。

▲ 图4. 不同模型在 AR-Bench 上的性能对比

▲ 图5. Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 上的性能对比。

我们还测试了两个先进的主动推理方法(Proactive CoT 和 Uncertanty of Thoughts)以及人类在 AR-Bench 上的表现(见图 6)。我们发现:

1. 即使是目前提出的先进的主动推理方法也无法提升模型在 AR-Bench 上的性能。

2. 人类在 AR-Bench 上的推理表现显著优于目前先进的语言模型。

▲ 图6.(左)先进的主动推理方法在 AR-Bench 上的性能表现,(右)人类在 AR-Bench 上的表现和 GPT-4o 对比。

为了更细致的研究语言模型在主动推理上的表现,理解目前模型和方法的不足,我们测量了模型在主动推理交互过程中模型对该任务的解决程度(见图 7,8),我们发现:

1. 在交互过程中,模型的收益呈现递减趋势,在后期问题质量低下;

2. 较弱的模型问出的问题质量偏低,并且无法对交互机会进行有效利用;

3. 较强的模型能够利用多轮交互机会,持续获得有用的信息;

4. 基于搜索的方法在 AR-Bench 中依赖于每一轮评估问题质量的验证器的可靠性,表现在对 GN 任务有显著提升 (验证器基于数值反馈构建,简单可靠),而在 SP 任务下无法提升推理表现 (验证器基于自然语言反馈构建,复杂且相对不可靠)。

▲ 图7. Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 推理中过程分的变化趋势。

▲ 图8. 不同模型在 AR-Bench 各任务上推理中过程分的变化趋势。

我们还进行在 AR-Bench 进行了三方面的消融实验(见图 9,10,11):

1. 固定交互信息,探究不同模型的推理能力的表现。

2. 延长交互的轮数,给予模型更多的机会进行信息获取,探究模型的表现变化。

3. 探究在实验中扮演回答者的模型的可靠性。

我们发现:

1. 更大的模型能够在固定的记录中提取出更多的有效信息。

2. 简单延长交互轮数无法完全解决主动推理任务。

3. 面对主模型提出的问题,回答者能够给出可靠的回复。

▲ 图9. 使用 Llama-3.1-70B 和 Llama-3.1-405B 在交互过程中获得的交互记录 测试不同模型在给定信息的情况下给出正确结论的能力。

▲ 图10. 延长交互轮数后,比较模型的推理表现变化

▲ 图11. 回答者模型的可靠性验证

为更直观评估模型在主动推理中的表现,我们系统分析了不同任务中的典型错误模式(见图 12),并通过具体案例深入剖析了模型的失误原因(见图 13)。

我们发现:

1. 模型会问出宽泛,不具体的问题。

2. 模型会问出没有帮助的问题。

3. 模型在主动推理中会频繁出现时间线误解,忽视证据,强行提出未经验证的假设,以及没有完全利用符号反馈等典型问题。

▲ 图12. GPT-4o 模型在不同任务下的推理正确和推理错误的案例分析

▲ 图13. Llama-3.1-8B 和 GPT-4o 在不同任务下的出现的典型错误统计

总结

我们的工作系统地定义了主动推理这一重要问题,并构建了 AR-Bench 作为社群的评估工具。我们的实验结果清晰地表明,当前的大语言模型虽然在被动推理上能力强大,但在更贴近现实的主动推理场景下却举步维艰。

展望未来工作,我们认为 AR-Bench 存在以下拓展方向:

提升模型的主动推理能力:

1. 采集小规模但是高质量的微调数据集

2. 将强化学习推理方法(PPO, GRPO, DAPO)和推理模型适配到主动推理

3. 为搜索方法开发更先进可靠的验证器,以提升搜索方法在主动推理上的表现

将 AR-Bench 拓展到更多的任务和领域:

1. 医疗场景和定制化代理

2. 多轮检索增强生成和工具调用

3. 模拟真实环境和多模态场景,例如机器人和游戏

更多的实验分析和技术细节,请参阅我们的论文及源码,我们也将持续更新本工作的内容。

我们希望 AR-Bench 能够激发更多关于主动推理的研究,推动开发出能够主动提问、高效探索、真正解决现实世界问题的人工智能。

关于作者:

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信基础模型、可信表征学习、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 Github:

https://github.com/tmlr-group

课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局新进学者协作研究补助金、优配研究金和杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的教职科研基金。

青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 bhanml@comp.hkbu.edu.hk。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 大语言模型 主动推理 AR-Bench 推理能力
相关文章