机器之心 09月20日
美团智能客服引入“逆学习”技术,精准优化模型行为
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美团智能客服最新研究提出“逆学习”技术,能像“精准手术”一样安全高效地抑制模型中的特定错误和风险行为。结合端到端大模型智能体与数据回流机制,该方案能自动收集、筛选真实对话数据,持续优化模型。面对数据回流可能引入的错误策略,逆学习能精准“切除”不良行为,最大程度保留原有能力,无需重新训练。美团提出的基于自适应模型参数定位的逆学习方法,通过低熵损失函数、对称变换迭代训练及自适应参数定位,实现了对模型行为的高效控制,并在关键风险控制指标上提升38%以上,同时保障整体服务效果不下降,有效提升用户体验。

💡 **逆学习技术实现模型行为精准控制**:美团智能客服引入的“逆学习”技术,是一种针对大模型的“外科手术式”行为编辑技术。它能够精准地从模型中“切除”特定的不良行为或风险策略,例如生成不合理解决方案或违背用户意图的行为,同时最大程度地保留模型原有的强大能力,避免了大规模重新训练的成本和时间。这使得模型在面对线上数据回流可能引入的风险时,能够进行安全、高效的纠正。

⚙️ **自适应参数定位优化控制效果**:美团团队提出的基于自适应模型参数定位的逆学习方法,通过精心设计的三个关键环节——低熵损失函数优化、对称变换迭代训练以及自适应参数定位机制,实现了对模型行为的精准控制。特别是自适应参数定位,能够像MRI扫描一样,精准识别与风险行为相关的关键模型参数,并仅对这些参数进行稀疏微调,从而在有效抑制不良行为的同时,最大程度地减少对模型整体性能的影响,实现了行为抑制与性能保持的良好平衡。

📈 **显著提升关键指标,保障用户体验**:通过应用逆学习技术,美团智能客服在关键风险控制指标上实现了38个百分点以上的提升,并且在整体服务效果不下降的前提下,有效提升了用户体验。实验结果表明,该方法在行为控制的精准性、训练的稳定性以及综合性能的保持方面均优于多种基线方法,如SFT和DPO训练模型。这为智能客服在复杂多变的用户场景和业务需求下,提供了一种高效、低成本的模型优化新路径,确保了服务质量和可靠性。

🚀 **未来展望:融合强化学习与泛化应用**:未来,美团计划将逆学习技术与强化学习算法融合,构建混合优化框架,以在高效抑制不期望行为的同时,引导模型学习更优的替代策略,增强决策的鲁棒性。此外,自适应参数定位算法的核心思想有望推广至隐私保护、跨域适配和模型可控性等不同场景与模型中,推动AI系统向更精细化、可控化的方向发展,实现模型行为与复杂场景需求的深度契合。


美团智能客服最新研究,提出了一种逆向学习新技术(简称 “逆学习”),能像 “精准手术” 一样,安全、高效地抑制模型中的特定错误和风险行为,在关键风险控制指标上提升 38 个百分点以上的同时,保障整体服务效果不下降,有效提升用户体验。”


背景:智能客服场景下的数据回流方案


美团智能客服采用的端到端大模型智能体,结合数据回流机制,构建了一套从线上服务中自动收集、筛选并利用真实对话数据的闭环优化方案。该方案能够持续从用户交互中挖掘优质应答样本(Good Case)与问题样本(Bad Case),显著提升了模型的指令遵循能力、表达自然度和复杂状态推理性能,在多项业务场景中实现了综合问题解决率的有效增长。其核心优势在于弥补了传统人工标注数据成本高、覆盖有限、更新迟缓的短板,增强了模型对真实用户需求多样性和业务高频变更的适应能力。


图 1:传统智能客服常见的问题


然而,尽管数据回流机制整体提升了服务效果,但由于回流数据源自线上实际交互,未经人工全面审核,仍可能引入错误策略或不当行为,例如生成不合理解决方案、违背用户意图或带来商业风险。这些问题导致个别关键服务质量指标出现显著下降,反映出模型在特定行为控制方面存在严重不足,亟需一种更精准、低成本的控制手段以实现回复安全性与可靠性的平衡。


逆学习精准控制模型行为


逆学习(Unlearning)是一种针对大模型的 “外科手术式” 行为编辑技术,其核心目标是从模型中精准 “切除” 某些不良行为或敏感知识,同时最大程度保留原有能力,无需重新训练整个模型。


针对数据回流中引入的模型行为偏差与风险应答,可采用逆学习方法对特定不良行为进行抑制。该方法通过构造遗忘样本集并设计针对性损失函数和优化算法,使模型迅速降低对不良策略的倾向性,如拒绝生成不合理回复或避免采纳高风险解决方案。相比之下,SFT、DPO 等微调方法依赖大量高质量人工标注,RL 方法则存在 Reward Hacking 和效果不稳定的问题。美团团队提出的精准逆学习算法能够在几乎不影响其他场景性能的前提下,实现快速、低成本的行为控制,从而提升模型在真实服务环境中的可靠性与用户体验。


基于自适应模型参数定位的逆学习方法



项目成员发表于 ICML 2025 的相关论文:https://openreview.net/pdf?id=tcK4PV3VN4


为实现对智能客服模型行为的精准与安全控制,美团北斗计划成员吾尔开希・阿布都克力木和导师程旭欣提出了一种基于自适应模型参数定位的逆学习方法(ALKN)。该方法是在吾尔开希・阿布都克力木作为第一作者发表于 ICML 2025 的论文基础上进一步改进和拓展的成果,旨在以 “精准手术” 的方式高效抑制特定错误行为,同时最大程度保留模型原有能力。其核心思路是先从线上交互中系统性收集需 “遗忘” 的对话数据(如错误解决方案或高风险回复),为逆学习提供明确优化目标。整体算法包含三个关键环节:低熵损失函数优化、对称变换迭代训练以及自适应参数定位机制。下面将分点阐述其原理与优势。


图 2:逆学习方法示意图


对称变换迭代训练 —— 提升训练稳定性:为解决传统逆学习中梯度上升算法不稳定、易导致模型正常性能大幅下降的问题,引入了对称变换迭代训练,基于梯度下降算法优化模型。这种方法通过在每次训练迭代中对模型参数进行模长约束对称变换,将当前参数关于前一迭代参数进行调整,确保更新方向与初始模型保持一致性,从而控制参数偏移幅度。好比温和的康复训练,通过迭代调整参数,增强训练的收敛性和稳定性,同时精准抑制目标行为,最大程度保留模型正常性能。


低熵损失函数优化 —— 抑制噪声样本影响:逆学习训练时,有些无关样本或简单样本反而会带来较大的梯度更新影响模型效果,这是由于 cross-entropy loss 梯度中样本概率的倒数项。为了缓解这一现象,设计了一种低熵损失函数,以初始模型对目标数据的预测置信度作为权重,动态区分核心问题和无关噪声。这就像医生在治疗时只对关键病症下药,最大限度减少副作用,从而降低对模型参数的剧烈扰动,提升训练稳定性。


自适应参数定位 —— 平衡行为抑制与性能保持:为进一步平衡行为抑制与性能保持,设计了一种自适应参数定位算法,精准识别与风险行为相关的关键参数。这就像使用 MRI 扫描仪定位大脑中的病灶区域,仅对关键参数进行稀疏微调,而其他参数保持不变。具体实现上,通过计算风险数据和正常数据的梯度向量,基于其模长和夹角构建重要性度量,并采用滑动平均维护全局度量(如公式 1 所示)。微调时仅更新重要性度量选出的模型参数,从而实现精准的行为遗忘,同时最大程度保留模型的泛化能力。


公式 1:重要性度量更新公式


综上所述,基于自适应模型参数定位的逆学习方法,在行为控制的精准性、训练稳定性和综合性能保持方面均表现出显著优势,为智能客服在面对复杂用户场景和高频业务变更时,提供了一种高效、低成本的模型优化新路径。


在性能表现上,自适应逆学习方法相较于多种基线方法展现出显著优势。基线方法包括原回流方案模型、去除目标数据后通过 SFT 训练的模型,以及使用强模型打标结合人工筛选数据进行 DPO 训练的模型。实验结果表明,自适应逆学习方法(ALKN)的线上指标优于多种基线方法。如图 3 所示,性能指标的变化与风险行为的抑制呈现权衡关系,对模型行为的控制往往伴随着整体性能下降作为代价。虽然 DPO 在行为抑制方面效果较好,但其会导致综合问题解决率和用户满意度等关键指标大幅下降。而自适应逆学习方法得益于低熵损失函数、对称变换迭代训练和自适应参数定位的协同作用,不仅精准抑制目标行为,还能保持整体性能指标基本不变。这种优异表现源于方法对关键参数的精准定位与稀疏微调策略,有效避免了对正常数据性能的破坏,为智能客服场景提供了兼顾行为控制与性能稳定的高效解决方案,显著推动了业务指标的优化和用户体验的提升。


图 3:三种方法在多种参数设置下的性能对比实验


展望


针对精准抑制大模型行为这一挑战问题,未来可进一步与强化学习算法融合,构建混合优化框架,例如利用逆学习思想高效抑制不期望行为,同时引导模型学习更优的替代策略,以填补行为抑制后的策略空缺并增强决策的鲁棒性,从而在动态环境中实现持续的行为优化。此外,自适应参数定位算法的核心思想可推广至不同场景与不同模型中,通过精准参数干预优化隐私保护、跨域适配和模型可控性。随着大模型技术的持续演进,该方法将推动 AI 系统向更精细化、可控化的方向迈进,为多样化的业务需求提供可持续的优化路径,最终实现模型行为与复杂场景需求的深度契合。


作者介绍



吾尔开希・阿布都克力木,本科和博士就读于清华大学自动化系,导师为张长水教授,研究方向是大语言模型与持续学习。他已在顶级学术会议和期刊上发表了十篇论文,其中七篇为第一作者,且有论文入选 ICLR Spotlight。当前,他是美团北斗计划成员,隶属于 LongCat Interaction 团队,主要从事美团本地生活服务大模型的研发以及大模型行为控制与决策方向的研究工作。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


平台地址:http://www.jintiankansha.me/t/LUvyxtWVrL

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

美团智能客服 逆学习 Unlearning AI模型 风险控制 用户体验 自然语言处理 大模型
相关文章