原创 让你更懂AI的 2025-10-18 18:39 北京
Aha Moment并非性能来源,反思大多是重复确认。
长思维链没那么神奇:推理模型中九成“反思”只是重复确认,真正决定结果的是第一个答案。邴立东团队系统量化发现,使用有更多反思的数据训练能让首答更准,但推理时截断反思几乎不掉分,却能显著节省 token。
推理模型学会“反思”了吗?
自 OpenAI-o1、DeepSeek-R1 系列模型发布以来,模型自我纠错(self-correction)、“aha moment”的概念引起了广泛的讨论,人们惊叹于推理模型可以在思考过程中进行反思,不借助外界指导自主纠正自己之前的错误。然而,其实自我纠错的概念在 o 系列模型之前已有许多相关研究,一篇 2023 年的工作 [3] 曾指出,LLM 在没有外界信息引入时,并不能进行自我纠错。这与当下推理模型所展现出的反思的行为模型似乎相互矛盾。是否随着 LLM 的发展,模型已经涌现出了自我反思的能力?还是当下推理模型的“反思”仍然不是真正的可以纠正之前错误的反思?本文中作者对此进行深入探究。首先,人为观察一些推理模型的长思维链,作者发现许多模型的自我反思似乎并没有实质性的推进推理的进度。以 DeepSeek-R1 的报告 [4] 中的“aha moment”例子为例,可以看到在“aha”的前后,模型的解题方法是完全一样的。推理模型的反思有效性的分析
观察长思维链,可以发现模型经常在得到一个答案之后进行多次的反思、确认答案的正确性,然后才输出最终的答案。为了更清晰地了解这些反思对最终准确率的贡献,作者分析了八个推理模型(MiMo-7B-RL [5], DeepSeek-R1-Distill-Qwen-7B [4], DeepSeek-R1-Distill-Llama-8B [4], Qwen3-8B [6], DeepSeek-R1-0528-Qwen3-8B [4], gpt-oss-20b [7], Magistral-Small-2506 [8], DeepSeek-R1-0528 [4])在五个数学数据集(Math500, AMC, Olympiad Bench, AIME2024, AIME2025)上的长思维链,提取长思维链中的出现的候选答案以及出现的位置,对模型的反思前后候选答案的变化情况及正确性进行统计。反思在训练数据中的作用
既然反思往往是确认性的,不能推进推理的进度,为什么有“反思”行为的模型往往效果更好呢?为此,作者精心构建监督学习训练(SFT)实验,探究“反思”数据对模型训练的影响。为了控制训练数据中“反思”的数量,作者对 DeepSeek-R1 和 Qwen3-8B 的长思维链进行分析,找到每个候选答案出现的位置,通过提前截断,强制生成答案,构造出六份数据集,cut-at-i (i=1, …, 6),第 i 份数据集中每个长思维链都包含i个候选答案,即 i-1 段反思。为了控制不同数据集的训练 token 数一致,下采样 i 更大的数据集中的问题,使每个数据集都有相同数量的训练 token(28M)。- 会提升模型输出的第一个答案的准确率,且输出第一个答案需要的 token 增长不明显;会增加反思的长度;但不会使反思变得更有效(反思带来的准确率提升涨幅很小)。
测试阶段推理效率提升
既然反思大多是确认性的,作者提出在测试阶段检测模型输出中是否已经包含了候选答案,并根据问题决定是否提前结束思考,生成答案。为此,作者训练两个分类器:Question Reflection Controller(QRC),用于决定问题是否更有可能获益于更多的反思,如果不是,就在第一次出现候选答案时结束思考(QRC的输入只有问题);Candidate Answer Detector (CAD),用于判断生成的句子中是否包含了候选答案(CAD的输入是问题和思维链中的一句话)。使用这两个轻量的分类器(基于Qwen3-1.7B),通过调整分类的阈值,可以实现输出长度和输出准确率之间的权衡。总结
通过分析八个模型在五个数学数据集上的长思维链,作者发现:- 大模型的反思有超过 90% 是确认性的,且对简单题的反思反而比对难题的反思更多。即便推理时反思“无效”,作者发现增加训练数据中反思的长度会使模型的准确率提升,但准确率提升的主因是思维链中第一个答案更准确,而非由训练后更长的反思所带来的。在通过 SFT 和 RL 训练得到推理模型后,其在实际解题时输出的长思维链中的反思行为,对准确率的提升作用很小。这表明,反思本身并不是推理时准确率提升的直接原因。而更可能是包含反思的训练数据为同一道题目提供了多种解题路径,从而增强了模型的泛化能力。在测试阶段,由于反思大部分不会改变答案,可以安全地截断反思,节省思考 token。
参考文献
[1] Liu, Zichen, et al. "Understanding r1-zero-like training: A critical perspective." arXiv preprint arXiv:2503.20783 (2025).
[2] Yang, Shu, et al. "Understanding aha moments: from external observations to internal mechanisms." arXiv preprint arXiv:2504.02956 (2025).
[3] Huang, Jie, et al. "Large language models cannot self-correct reasoning yet." arXiv preprint arXiv:2310.01798 (2023).
[4] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).
[5] Xiaomi, L. L. M., et al. "MiMo: Unlocking the Reasoning Potential of Language Model--From Pretraining to Posttraining." arXiv preprint arXiv:2505.07608 (2025).
[6] Yang, An, et al. "Qwen3 technical report." arXiv preprint arXiv:2505.09388 (2025).
[7] Agarwal, Sandhini, et al. "gpt-oss-120b & gpt-oss-20b model card." arXiv preprint arXiv:2508.10925 (2025).
[8] Rastogi, Abhinav, et al. "Magistral." arXiv preprint arXiv:2506.10910 (2025).
[9] Li, Xingxuan, et al. "Miromind-m1: An open-source advancement in mathematical reasoning via context-aware multi-stage policy optimization." arXiv preprint arXiv:2507.14683 (2025).
更多阅读