新智元报道
新智元报道
让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。奖励过度优化是大模型对齐的「阿喀琉斯之踵」。简单来说,就是模型学会了「钻空子」——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正理解知识。Scale AI的最新研究直击这一痛点,从理论层面揭示了问题的根源,并提出了创新的解决方案。论文链接:https://arxiv.org/abs/2509.21500 代码开源:https://github.com/Jun-Kai-Zhang/rubrics数据开源:https://huggingface.co/datasets/JunkaiZ/Rubrics
理论突破高分区才是关键战场来自Scale AI、UCLA和芝加哥大学的研究团队,首次从理论上给出了明确答案:奖励过度优化的根源,在于奖励模型在高分区的不准确性。高奖励区域的准确性决定一切:当代理奖励在高分区域出现偏差时,模型性能会随着训练进程急剧崩溃;而低分区域的误差影响微乎其微。只需要准确识别Top 2响应:即使只能正确排序前10%的优质回答,模型性能就能接近最优,效果几乎与完美奖励模型相当。这意味着:我们不需要在所有回复上都准确,只需要准确区分「优秀」和「卓越」!方法创新用评分准则捕捉「卓越」理论清晰了,但新问题来了:如何获得高质量样本来训练奖励模型?这里存在一个悖论:从基础模型采样?太低效了——高分样本本来就稀少。用更强模型生成?又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。研究团队提出了基于评分准则(rubric)的解决方案。评分准则是一组衡量回答好坏的明确准则,每个准则都有相应权重。比如对于医疗诊断问题,可能包括:
低权重准则:「提及治疗方案」
实验验证全面碾压基线方法研究在通用和医疗两个领域进行了大规模实验:性能提升明显使用优质样本改进的评分准则,胜率从31.3%提升至39.7%医疗领域的HealthBench得分从0.3004提升至0.3513有效缓解奖励过度优化初始评分准则训练的模型在60步后性能急剧下降改进后的评分准则将崩溃点推迟到160步,延长了近3倍高奖励区域准确率大幅提升评分准则改进后,在高奖励区域的准确率提升显著,而低奖励区域的准确率基本不变,完美验证了理论预测。质的飞跃:优秀样本带来更深层的改进研究团队还分析了不同质量样本带来的Rubric改进类型:优秀样本驱动的改进:添加惩罚项,避免明显错误放宽过于严格的标准纠正错误或对齐预期标准卓越样本驱动的改进:将复杂标准分解为子标准增强验证和证据标准明确范围、边界和约束纳入风险分析和安全约束以医疗案例为例:初始Rubric只要求「提到正确诊断」和「说明紧急性」——两个优秀回复都满足。精炼后的Rubric新增标准:「明确指出需要紧急影像学检查(如增强CT或MRI/MRV)来确认诊断」,成功区分出了更好的那个。这就是质的飞跃:从表面判断到深层验证标准。产业意义与展望这项研究为大模型对齐提供了全新视角:理论指导实践:明确了奖励建模的优化方向——聚焦高奖励区域方法可操作性强:基于评分准则的方法易于实施和解释领域适应性好:在医疗等专业领域表现尤其出色当然,研究也指出了当前的局限:简单的加权平均可能不是最优的分数聚合方式对于大模型从业者来说,这项工作提供了一个清晰的方向:不要试图在所有地方都完美,专注于准确区分顶尖回复,这才是对齐的关键。
文章原文
