PaperWeekly 10月10日 23:36
腾讯TRM模型:提升大模型开放域问答的批判性思考能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯WXG推出的思维监督奖励模型TRM,旨在解决大语言模型在开放域问答中的事实正确性难题。TRM引入“忠实性→推理→正确性”的三步思考链路,教会模型批判性地评估答案。通过句子级别的奖励信号,TRM能区分忠实但错误、不忠实但正确等复杂场景。实验表明,TRM显著提升了错误句子的识别能力,并与偏好奖励结合,在实际应用中有效提高了答案的正确性和实用性。

💡 TRM模型的核心在于其“忠实性→推理→正确性”的三步思考链路,它模仿人类的批判性思维过程,首先判断答案句子是否忠实于支持文档,然后结合模型自身知识进行推理,最终评估句子的事实正确性。这种分层评估方式使得模型能够更精细地处理信息,避免简单地依赖外部资料。

🎯 TRM通过引入句子级别的奖励信号,克服了传统方法在开放域问答中难以验证“正确性”的挑战。它能够区分四种关键场景:忠实且正确(可靠)、忠实但错误(文档本身有误)、不忠实但正确(模型修正了文档缺陷)、以及不忠实且错误(幻觉或伪造)。这使得模型能更准确地识别和学习纠正错误。

🚀 在实际应用中,TRM被整合到策略优化阶段,与偏好奖励模型(Prefer)协同工作,形成双重奖励机制。TRM侧重于逐句的事实正确性,而Prefer关注答案的完整性和用户偏好。这种联合优化显著提升了答案的实用性(+35%)和正确率(+30%),使得模型生成的答案既可靠又更有信息量。

📊 实验数据显示,TRM在错误句子识别能力上超越了传统的ORM和PRM基线,句子级F1分数提升约6.5%,错误答案检测率提升约5.9%。这有力地证明了显式引入“忠实性→推理→正确性”的思维链条,对于提升LLM的批判性思维和鲁棒判断力至关重要。

原创 让你更懂AI的 2025-10-09 23:49 北京

忠实性→推理→正确性

最近,腾讯 WXG 推出了思维监督奖励模型Thinking-supervised Reward Model (TRM),旨在提升大语言模型(LLM)在开放域问答任务中的事实正确性。

TRM 通过引入忠实性 → 推理 → 正确性的三步思考链路,教会大模型像人类一样批判性思考,从而显著提升了在开放式问答场景中(open-domain QA)对错误句子的识别能力。

TRM 已被应用到大模型的 RL 后续训练中,并在开放域问答数据集上实现了最高 30.3% 的正确率提升。

论文题目:

From Faithfulness to Correctness: Generative Reward Models that Think Critically

论文链接:

https://arxiv.org/abs/2509.25409

代码链接:

https://github.com/Martin-qyma/TRM

模型链接:

https://huggingface.co/QiyaoMa/TRM

导读

通过可验证奖励的强化学习(RLVR),大语言模型(LLM)在数学、编程等结果易于验证的领域取得了显著进展。然而,当应用于开放域问答等更复杂的任务时,RLVR 面临重大挑战,原因在于“正确性”难以验证。

现实世界知识往往具有复杂性和模糊性,使得在这些场景中难以可靠地评估答案是否正确。这就要求模型不仅具备逻辑一致性,还需要具备同时理解和评估 外部资料与自身内部知识的能力。

近期的研究主要聚焦于提升忠实性 —— 即答案与支持文档的语义一致性。但这种方法可能导致模型过于依赖外部资料,从而削弱了其批判性思考的能力。

为解决这一问题,我们提出了思维监督奖励模型(TRM)。TRM 在句子层面引入力导思维监督,赋予奖励模型批判性思考能力。针对一个查询、答案和支持文档,TRM 首先评估答案中每个句子是否忠实于文档,然后再通过推理步骤判断该句子的正确性。

通过将奖励建模过程明确结构化为忠实性 → 推理 → 正确性的链路,TRM 鼓励模型批判性地评估并利用外部与内部知识。实验结果表明,TRM 在错误句子识别上有显著提升,而将 TRM 融入策略优化后,还能有效提高答案的正确性与实用性。

模型方法

在开放域问答中,一个答案往往不是“全对”或“全错”,而是夹杂着局部准确和局部错误。传统的监督方式会因为个别错误而整体否定答案,导致模型难以学习精细化判断。为此,我们提出了思维监督奖励模型(TRM)。

TRM 的核心创新是句子级别的奖励信号,并设计出一个仿照人类批判性思维的推理链条:

    忠实性(Faithfulness):先判断每一句话是否忠实于参考文档。

    推理(Reasoning):在忠实性的基础上,结合模型内在知识进行分析。

    正确性(Correctness):最终判断句子是否事实正确。

这样的三步流程让 TRM 能够区分四种关键场景:

    忠实且正确(可靠答案)

    忠实但错误(文档本身可能有误)

    不忠实但正确(模型借助内部知识修正了文档缺陷)

    不忠实且错误(典型幻觉或伪造)通过这种设计,TRM 不仅帮助模型发现“哪一句有问题”,还学会像人类一样,既参考外部证据,又检验自身知识。在实验中,TRM 显著提升了错误检测能力,并为后续的强化学习提供了更精确的奖励信号。

模型验证

在开放域问答中,如何精准识别“哪些句子是错的”始终是一大挑战。为验证思维监督奖励模型(TRM)的有效性,我们进行了大规模实验:

数据构建:

实验设计:

关键结果:

实验证明:显式引入 “忠实性 → 推理 → 正确性” 的思维链条,是提升模型批判性思维与鲁棒判断力的关键。

模型应用

在实际应用中,一个答案正确并不等于好用。简短的回答也许精准无误,却可能缺乏信息量和实用价值。为此,我们在策略优化(Policy Optimization)阶段引入了一套双重奖励机制:

在强化学习过程中,我们将 TRM 的句子级正确性奖励 与 Prefer 的答案级偏好奖励 融合,通过 GRPO 算法共同引导策略模型的优化。这样,模型不仅学会避免错误,还能在众多候选中生成更有用、更全面的回答。

实验结果显示:这种联合优化方法在困难场景中显著提升了答案的实用性(+35%),在常见问题中则进一步增强了正确率(+30%)。

结语

本文提出的思维监督奖励模型(TRM),通过“忠实性 → 推理 → 正确性”的分层链路,将奖励建模从单一的结果判定,扩展为具备批判性思考的过程。

实验充分验证:TRM 在句子级别和答案级别都显著提升了错误检测能力,并在强化学习中结合正确性与偏好奖励,实现了答案更可靠、更有用的统一优化。

整体而言,TRM 不仅解决了开放域问答验证难的问题,也为未来更可解释、更稳健的奖励建模探索提供了新的方向。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

腾讯 TRM 大语言模型 LLM 开放域问答 Open-Domain QA 奖励模型 Reward Model 事实正确性 Factual Correctness 批判性思维 Critical Thinking 强化学习 Reinforcement Learning AI 人工智能
相关文章