index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
腾讯WXG推出的思维监督奖励模型TRM,旨在解决大语言模型在开放域问答中的事实正确性难题。TRM引入“忠实性→推理→正确性”的三步思考链路,教会模型批判性地评估答案。通过句子级别的奖励信号,TRM能区分忠实但错误、不忠实但正确等复杂场景。实验表明,TRM显著提升了错误句子的识别能力,并与偏好奖励结合,在实际应用中有效提高了答案的正确性和实用性。
💡 TRM模型的核心在于其“忠实性→推理→正确性”的三步思考链路,它模仿人类的批判性思维过程,首先判断答案句子是否忠实于支持文档,然后结合模型自身知识进行推理,最终评估句子的事实正确性。这种分层评估方式使得模型能够更精细地处理信息,避免简单地依赖外部资料。
🎯 TRM通过引入句子级别的奖励信号,克服了传统方法在开放域问答中难以验证“正确性”的挑战。它能够区分四种关键场景:忠实且正确(可靠)、忠实但错误(文档本身有误)、不忠实但正确(模型修正了文档缺陷)、以及不忠实且错误(幻觉或伪造)。这使得模型能更准确地识别和学习纠正错误。
🚀 在实际应用中,TRM被整合到策略优化阶段,与偏好奖励模型(Prefer)协同工作,形成双重奖励机制。TRM侧重于逐句的事实正确性,而Prefer关注答案的完整性和用户偏好。这种联合优化显著提升了答案的实用性(+35%)和正确率(+30%),使得模型生成的答案既可靠又更有信息量。
📊 实验数据显示,TRM在错误句子识别能力上超越了传统的ORM和PRM基线,句子级F1分数提升约6.5%,错误答案检测率提升约5.9%。这有力地证明了显式引入“忠实性→推理→正确性”的思维链条,对于提升LLM的批判性思维和鲁棒判断力至关重要。
原创 让你更懂AI的 2025-10-09 23:49 北京

忠实性→推理→正确性
最近,腾讯 WXG 推出了思维监督奖励模型Thinking-supervised Reward Model (TRM),旨在提升大语言模型(LLM)在开放域问答任务中的事实正确性。TRM 通过引入忠实性 → 推理 → 正确性的三步思考链路,教会大模型像人类一样批判性思考,从而显著提升了在开放式问答场景中(open-domain QA)对错误句子的识别能力。
TRM 已被应用到大模型的 RL 后续训练中,并在开放域问答数据集上实现了最高 30.3% 的正确率提升。
论文题目:From Faithfulness to Correctness: Generative Reward Models that Think Critically论文链接:https://arxiv.org/abs/2509.25409代码链接:https://github.com/Martin-qyma/TRM模型链接:https://huggingface.co/QiyaoMa/TRM导读通过可验证奖励的强化学习(RLVR),大语言模型(LLM)在数学、编程等结果易于验证的领域取得了显著进展。然而,当应用于开放域问答等更复杂的任务时,RLVR 面临重大挑战,原因在于“正确性”难以验证。现实世界知识往往具有复杂性和模糊性,使得在这些场景中难以可靠地评估答案是否正确。这就要求模型不仅具备逻辑一致性,还需要具备同时理解和评估 外部资料与自身内部知识的能力。近期的研究主要聚焦于提升忠实性 —— 即答案与支持文档的语义一致性。但这种方法可能导致模型过于依赖外部资料,从而削弱了其批判性思考的能力。
为解决这一问题,我们提出了思维监督奖励模型(TRM)。TRM 在句子层面引入力导思维监督,赋予奖励模型批判性思考能力。针对一个查询、答案和支持文档,TRM 首先评估答案中每个句子是否忠实于文档,然后再通过推理步骤判断该句子的正确性。
通过将奖励建模过程明确结构化为忠实性 → 推理 → 正确性的链路,TRM 鼓励模型批判性地评估并利用外部与内部知识。实验结果表明,TRM 在错误句子识别上有显著提升,而将 TRM 融入策略优化后,还能有效提高答案的正确性与实用性。
模型方法
在开放域问答中,一个答案往往不是“全对”或“全错”,而是夹杂着局部准确和局部错误。传统的监督方式会因为个别错误而整体否定答案,导致模型难以学习精细化判断。为此,我们提出了思维监督奖励模型(TRM)。TRM 的核心创新是句子级别的奖励信号,并设计出一个仿照人类批判性思维的推理链条:忠实性(Faithfulness):先判断每一句话是否忠实于参考文档。推理(Reasoning):在忠实性的基础上,结合模型内在知识进行分析。正确性(Correctness):最终判断句子是否事实正确。
这样的三步流程让 TRM 能够区分四种关键场景:忠实且正确(可靠答案)忠实但错误(文档本身可能有误)不忠实但正确(模型借助内部知识修正了文档缺陷)不忠实且错误(典型幻觉或伪造)通过这种设计,TRM 不仅帮助模型发现“哪一句有问题”,还学会像人类一样,既参考外部证据,又检验自身知识。在实验中,TRM 显著提升了错误检测能力,并为后续的强化学习提供了更精确的奖励信号。
模型验证在开放域问答中,如何精准识别“哪些句子是错的”始终是一大挑战。为验证思维监督奖励模型(TRM)的有效性,我们进行了大规模实验:数据构建:来自腾讯搜索引擎的真实查询,经过严格匿名化;答案被分割成句子,以便精细化标注;双阶段人工标注:先判断句子是否忠实于文档,再结合外部知识确认其事实正确性。构建出可区分“忠实但错误、非忠实但正确”等复杂场景的高质量数据集。
实验设计:对比三类基线:结果监督奖励模型(ORM)、过程监督奖励模型(PRM)、以及我们提出的 TRM。针对答案正确率高度不平衡(约 87% 句子为正确)的挑战,评估聚焦于错误句子识别能力。核心指标包括:句子级 F1 分数、错误答案检测率等。
关键结果:TRM 在所有指标上全面超越 ORM 和 PRM;显著提升了对错误句子的定位与识别能力(F1 提升约 +6.5%,检测率提升约 +5.9%);
实验证明:显式引入 “忠实性 → 推理 → 正确性” 的思维链条,是提升模型批判性思维与鲁棒判断力的关键。模型应用
在实际应用中,一个答案正确并不等于好用。简短的回答也许精准无误,却可能缺乏信息量和实用价值。为此,我们在策略优化(Policy Optimization)阶段引入了一套双重奖励机制:TRM(思维监督奖励模型) —— 专注于逐句判断答案的事实正确性。Prefer(偏好奖励模型) —— 关注答案是否更完整、更实用、更符合用户偏好。
在强化学习过程中,我们将 TRM 的句子级正确性奖励 与 Prefer 的答案级偏好奖励 融合,通过 GRPO 算法共同引导策略模型的优化。这样,模型不仅学会避免错误,还能在众多候选中生成更有用、更全面的回答。实验结果显示:这种联合优化方法在困难场景中显著提升了答案的实用性(+35%),在常见问题中则进一步增强了正确率(+30%)。
结语本文提出的思维监督奖励模型(TRM),通过“忠实性 → 推理 → 正确性”的分层链路,将奖励建模从单一的结果判定,扩展为具备批判性思考的过程。实验充分验证:TRM 在句子级别和答案级别都显著提升了错误检测能力,并在强化学习中结合正确性与偏好奖励,实现了答案更可靠、更有用的统一优化。整体而言,TRM 不仅解决了开放域问答验证难的问题,也为未来更可解释、更稳健的奖励建模探索提供了新的方向。更多阅读 #投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·![]()
![]()
![]()
![]()
![]()
阅读原文
跳转微信打开