原创 让你更懂AI的 2025-09-22 14:17 北京
算力变监督,学生一度跑赢老师!
论文题目:
Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
论文地址:
https://arxiv.org/pdf/2509.14234
研究背景:从“选择”到“综合”
在大模型的后训练实践中,研究者主要依赖三类监督信号:1. 有标注数据的监督微调(SFT),需要大规模人工标注;2. 可验证任务的程序化奖励,如数学答案匹配、代码执行;3. 替代性信号:多数投票(Self-Consistency)、困惑度排序(PPL-based)、LLM 判官打分。问题在于:- SFT 标注稀缺,难以扩展;程序化奖励只适用于有限场景;判官 LLM 和投票机制,都存在稳定性差或“随大流”的问题。
把“并行思考”炼成“可学监督”
从“选择”到“合成”CaT 的出发点是一个看似简单的问题:当模型一次性生成多条推理路径(rollouts)时,我们能否不只是“挑出最好的一条”,而是把这些路径综合成更优的参考答案?设当前策略为 ,面对问题 ,它会生成 条回答轨迹:这些 rollouts 有时相互补充,有时相互矛盾。传统方法往往在这里结束:通过困惑度排序(min-PPL)、自一致性投票(Self-Consistency)、或 LLM 判官打分来选一条。而 CaT 引入了一个冻结的锚点策略 ,让它基于 做“信息调和”,产出新的参考回答 :其中 是综合提示词,要求锚点聚合差异信息,消解冲突,而不是简单复写。