苹果研究人员在其最新论文中提出了一种名为“基于清单反馈的强化学习”(RLCF)的新方法,旨在提升大语言模型(LLMs)执行复杂指令的能力。与传统的“人类反馈强化学习”(RLHF)依赖点赞/点踩评分不同,RLCF为每条用户指令生成具体的检查清单,并逐项评分。在“Qwen2.5-72B-Instruct”模型上的测试结果显示,RLCF在多个基准测试中均带来了显著提升,例如在FollowBench上提升4个百分点,InFoBench提高6点。该方法通过生成包含二元判断项的“WildChecklists”数据集,利用大模型对候选回答进行评分,并将加权后的分数作为训练奖励信号。尽管RLCF在提升复杂指令执行方面效果显著,但研究者也指出其局限性,包括对更强模型作为评判者的依赖以及其不适用于安全对齐问题。
🍎 苹果研究团队提出“基于清单反馈的强化学习”(RLCF)新方法,旨在革新大语言模型(LLMs)处理复杂指令的方式。与依赖人类点赞/点踩的传统“人类反馈强化学习”(RLHF)不同,RLCF通过为每条指令生成详细的检查清单,并对模型生成的每个回答进行逐项评分,从而提供更精细化的反馈信号,以指导模型优化其性能。
📊 RLCF方法在实际测试中表现出色,在强指令跟随模型Qwen2.5-7B-Instruct上进行评估时,该方法是在所有测试基准中唯一实现全面提升的方案。具体而言,在FollowBench硬性满意率上提升了4个百分点,InFoBench提高了6点,Arena-Hard胜率增加了3点,某些特定任务的提升幅度最高可达8.2%,这充分证明了其在处理多步骤、复杂指令方面的有效性。
📝 该方法的实现依赖于一个名为“WildChecklists”的数据集,该数据集由一个更大规模的Qwen2.5-72B-Instruct模型生成,其中包含了13万条指令及其对应的二元判断项检查清单,例如“是否翻译成西班牙语?”。这些清单项随后被用于指导大模型对候选回答进行逐项评分,并将这些评分加权后作为训练小模型的奖励信号。
⚠️ 苹果研究者也坦诚该RLCF方法的局限性。首先,其有效性在一定程度上依赖于更强大的模型作为“评判者”来生成和评分清单,这在计算资源受限的场景下可能难以实现。其次,RLCF主要聚焦于提升指令执行的准确性,而非解决模型的安全对齐问题,因此不能替代专门的安全评估与调优工作。其他任务类型的适用性也需要进一步的验证。
IT之家 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。
IT之家注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞 / 点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0-100 分逐项评分,用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:
这表明清单反馈在复杂、多步骤需求的执行中效果显著。


清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。
苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。
