PaperWeekly 前天 23:48
模型反思:是“真纠错”还是“重复确认”?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期研究深入剖析了大型语言模型(LLMs)在推理过程中所谓的“反思”行为。研究发现,模型约九成以上的反思实际上是对首次生成答案的重复确认,而非实质性的错误纠正。尽管训练数据中包含更多反思的样本能提升模型首次回答的准确率,但模型在实际测试阶段的“自我纠错”能力提升有限。文章提出,在测试阶段,可以安全地截断模型输出中的大部分反思内容,从而显著节省计算资源,同时保持较高的准确率,这表明模型的“Aha Moment”更多体现在首个答案的生成,而非后续的自我修正。

💡 **反思行为的性质:** 研究发现,大型语言模型在推理过程中进行的“反思”绝大多数(超过90%)是确认性的,即重复确认已有的答案,而非真正意义上的纠正错误。这意味着模型并非通过反思来主动修正之前的错误,而是对当前的答案进行验证。

📈 **训练数据与模型性能:** 使用包含更多反思的训练数据可以提升模型在训练后的首次回答准确率。然而,这种提升主要归因于模型首次尝试时就给出正确答案的能力增强,而不是通过反思“错改对”的机制。反思在训练阶段带来的“纠错”效果十分有限。

🚀 **测试阶段的效率提升:** 由于模型的大部分反思行为是确认性的且对最终准确率提升贡献甚微,因此在测试阶段可以安全地截断这些反思内容。通过提前结束思考并在第一次出现候选答案时输出结果,可以显著节省token消耗,同时几乎不影响模型的准确率。

🤔 **“Aha Moment”的再解读:** 模型在推理过程中出现的“Aha Moment”或“自我纠错”现象,更多地体现在模型能够首次就给出正确答案,而非通过漫长的反思过程来修正错误。这表明模型的泛化能力和首次尝试的准确性是关键,反思本身并非提高准确率的直接驱动力。

原创 让你更懂AI的 2025-10-18 18:39 北京

Aha Moment并非性能来源,反思大多是重复确认。

长思维链没那么神奇:推理模型中九成“反思”只是重复确认,真正决定结果的是第一个答案。邴立东团队系统量化发现,使用有更多反思的数据训练能让首答更准,但推理时截断反思几乎不掉分,却能显著节省 token。

DeepSeek-R1 发布之后,人们普遍惊叹于推理模型通过增加思维链长度进行不断反思,从而得到更准确的答案。

一些研究者对“Aha Moment”做了一些探索,如 [1] 中指出”aha moment”在 base 模型中就存在,并用 case study 展示这种“反思”的 superficial 的特点;[2] 对思维链进行分析指出其中的拟人语气与题目的难度相关,并且这种语气能防止推理过程的崩溃。

然而,对于思维链变长后究竟包含哪些内容、呈现出哪些行为模式,以及它们对准确率提升的具体贡献,社区仍缺乏清晰认识;同时,关于其中的反思行为也缺少系统、量化的深入分析。

本文中,作者对大模型的推理过程进行了深入开箱,重点分析了思维链中模型每次得到候选答案的位置,以及候选答案之间的反思过程,并通过量化的分析展示这种反思模式在训练数据中,以及测试阶段的不同作用。

通过实验作者发现,在训练过程中,使用包含更多反思的训练数据可提升模型的准确率,但提升主要体现在首次答案的准确率上涨,而反思带来的“错改对”的行为仍十分稀少。

同时,作者发现,在测试过程中,往往可以安全地截断第一个答案之后的反思以节省输出 token 的数量,同时维持准确率几乎不变。

论文标题:

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

论文作者:

康力伟,邓岳,肖遥,莫湛锋,Lee Wee Sun,邴立东

论文链接:

https://arxiv.org/abs/2510.08308

代码链接:

https://github.com/Olafyii/first-try-matters

推理模型学会“反思”了吗?

自 OpenAI-o1、DeepSeek-R1 系列模型发布以来,模型自我纠错(self-correction)、“aha moment”的概念引起了广泛的讨论,人们惊叹于推理模型可以在思考过程中进行反思,不借助外界指导自主纠正自己之前的错误。

然而,其实自我纠错的概念在 o 系列模型之前已有许多相关研究,一篇 2023 年的工作 [3] 曾指出,LLM 在没有外界信息引入时,并不能进行自我纠错。

这与当下推理模型所展现出的反思的行为模型似乎相互矛盾。是否随着 LLM 的发展,模型已经涌现出了自我反思的能力?还是当下推理模型的“反思”仍然不是真正的可以纠正之前错误的反思?

本文中作者对此进行深入探究。首先,人为观察一些推理模型的长思维链,作者发现许多模型的自我反思似乎并没有实质性的推进推理的进度。以 DeepSeek-R1 的报告 [4] 中的“aha moment”例子为例,可以看到在“aha”的前后,模型的解题方法是完全一样的。

基于这些观察,本文对众多推理模型在数学问题上的长思维链进行系统性的分析,探究模型是否真的有反思的过程,以及为何模型的思维链长度与推理的准确率有正相关性,并提出测试阶段提升模型推理效率的方法。

推理模型的反思有效性的分析

观察长思维链,可以发现模型经常在得到一个答案之后进行多次的反思、确认答案的正确性,然后才输出最终的答案。

为了更清晰地了解这些反思对最终准确率的贡献,作者分析了八个推理模型(MiMo-7B-RL [5], DeepSeek-R1-Distill-Qwen-7B [4], DeepSeek-R1-Distill-Llama-8B [4], Qwen3-8B [6], DeepSeek-R1-0528-Qwen3-8B [4], gpt-oss-20b [7], Magistral-Small-2506 [8], DeepSeek-R1-0528 [4])在五个数学数据集(Math500, AMC, Olympiad Bench, AIME2024, AIME2025)上的长思维链,提取长思维链中的出现的候选答案以及出现的位置,对模型的反思前后候选答案的变化情况及正确性进行统计。

如上图所示,作者使用 gpt-oss-120b 来抽取长思维链中的候选答案。可以看到依赖模型进行的抽取任务只需要简单的语言理解,同时作者也通过人为验证确保了抽取的准确性。

通过统计思维链中相邻出现的两个答案的变化,作者发现大多数的变化(超过 90%)是确认性的(T→T, F→F (same)),即推理模型所进行的反思并不能改变其之前的答案。

此外,对每个模型统计:思维链中的第一个候选答案的准确率;反思对最终准确率的提升;以及得到第一个答案和其之后的反思分别使用的token数。结果展示在下图(注:得到第一个答案后的长思维链中的内容即为模型反思的部分,对应下图中蓝色部分)。

可以看到,模型之间准确率的区别主要由第一答案的准确率决定;反思虽然消耗了相当比例的 token(16.8%~47.8%),带来的提升却十分有限(≤3.5%)(注:此处及后文中提到的准确率如无特殊标明,均指五个数据集的准确率平均值)。

这其实类似于人类参加考试,大部分题目都是第一次做对的,在考试中的检查(即反思)往往很难带来答案的改变。如果有能力把题目做对,更有可能是第一次尝试时就做对,而不是先生成一个错误答案再通过反思做对。

通过对各个数据集的分析,还可以发现,推理模型的反思频率和题目的难度有显著的负相关性。

如下图所示,简单的数据集(如 Math500)上长思维链中会有更多的候选答案,即更多的反思,而相对更难的数据集(如 AIME2025),思维链中的反思反而更少。这反映出当前推理模型中反思的使用和题目难度的不匹配:模型浪费更多的反思在简单问题上,而在更难的问题上反思却更少。

上图中的准确率是八个模型的平均值。

反思在训练数据中的作用

既然反思往往是确认性的,不能推进推理的进度,为什么有“反思”行为的模型往往效果更好呢?为此,作者精心构建监督学习训练(SFT)实验,探究“反思”数据对模型训练的影响。

为了控制训练数据中“反思”的数量,作者对 DeepSeek-R1 和 Qwen3-8B 的长思维链进行分析,找到每个候选答案出现的位置,通过提前截断,强制生成答案,构造出六份数据集,cut-at-i (i=1, …, 6),第 i 份数据集中每个长思维链都包含i个候选答案,即 i-1 段反思。

为了控制不同数据集的训练 token 数一致,下采样 i 更大的数据集中的问题,使每个数据集都有相同数量的训练 token(28M)。

用 DeepSeek-R1 和 Qwen3-8B 的长思维链分别构造出的六份数据集,作者对 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 进行 SFT。

训练结果表明,虽然反思在长思维链中往往是“无效”的(没有改变答案),但用反思更多的思维链来训练总会带来更好的效果:训练的思维链反思越多→训练后的模型输出越长,准确率越高。

通过分析 SFT 之后的模型的反思模式(见下图),作者发现模型准确率的提升主要来自输出的第一个答案的准确率的提升;虽然用更多反思的思维链训练(即 cutting position 更大)能增加反思的长度,但反思带来的准确率的提升并没有明显上涨。

对此,作者猜测可能的原因是:更长的思维链中包含了对一道题目的多种解法,在这样的思维链中学习可以让模型有更强的泛化能力,从而提升模型第一次做对题目的准确率。

总结作者的发现,SFT使用更长的思维链训练:

基于 SFT 实验的发现,作者进一步探索 RL 训练过程中是否有相同的现象。作者对 RL 前后的模型(DeepSeek-R1-Distill-Qwen-32B →MiroMind-M1-RL-32B [9],MiroMind-M1-SFT-7B→MiroMind-M1-RL-7B [9])的长思维链进行同样的分析。

下图结果中可以看到,RL 前后模型准确率的提升主要体现在第一个答案的准确率(32B 模型提升 4.6%,7B 模型提升 7.7%),而反思所带来的准确率的提升在 RL 前后变化很小(32B 模型提升 0.3%,7B 模型提升 0.1%)。

这说明 RL 训练阶段对模型能力的提升也是主要体现在第一个答案的准确率,模型的反思能力 -- 把错误答案改对的能力,并没有在 RL 训练中得到提升。

测试阶段推理效率提升

既然反思大多是确认性的,作者提出在测试阶段检测模型输出中是否已经包含了候选答案,并根据问题决定是否提前结束思考,生成答案。

为此,作者训练两个分类器:Question Reflection Controller(QRC),用于决定问题是否更有可能获益于更多的反思,如果不是,就在第一次出现候选答案时结束思考(QRC的输入只有问题);Candidate Answer Detector (CAD),用于判断生成的句子中是否包含了候选答案(CAD的输入是问题和思维链中的一句话)。

使用这两个轻量的分类器(基于Qwen3-1.7B),通过调整分类的阈值,可以实现输出长度和输出准确率之间的权衡。

上图右上角,QRC 的阈值是 1.0,即所有问题都在出现第一个候选答案时停止;CAD 的阈值较小,是 0.15,即一个句子更有可能被认为包含候选答案。

总结

通过分析八个模型在五个数学数据集上的长思维链,作者发现:

参考文献

[1] Liu, Zichen, et al. "Understanding r1-zero-like training: A critical perspective." arXiv preprint arXiv:2503.20783 (2025).

[2] Yang, Shu, et al. "Understanding aha moments: from external observations to internal mechanisms." arXiv preprint arXiv:2504.02956 (2025).

[3] Huang, Jie, et al. "Large language models cannot self-correct reasoning yet." arXiv preprint arXiv:2310.01798 (2023).

[4] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).

[5] Xiaomi, L. L. M., et al. "MiMo: Unlocking the Reasoning Potential of Language Model--From Pretraining to Posttraining." arXiv preprint arXiv:2505.07608 (2025).

[6] Yang, An, et al. "Qwen3 technical report." arXiv preprint arXiv:2505.09388 (2025).

[7] Agarwal, Sandhini, et al. "gpt-oss-120b & gpt-oss-20b model card." arXiv preprint arXiv:2508.10925 (2025).

[8] Rastogi, Abhinav, et al. "Magistral." arXiv preprint arXiv:2506.10910 (2025).

[9] Li, Xingxuan, et al. "Miromind-m1: An open-source advancement in mathematical reasoning via context-aware multi-stage policy optimization." arXiv preprint arXiv:2507.14683 (2025).

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI LLM Reasoning Models Self-Correction Reflection Aha Moment DeepSeek-R1 AI Research Natural Language Processing 人工智能 大模型 推理模型 自我纠错 反思 思维链 AI研究
相关文章