MIT 科技评论 - 本周热榜 08月19日
研究人员打造BiDoRA一举解决DoRA耦合问题,以高效微调解锁小数据潜力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为了解决传统大模型微调效率低、计算资源需求大的问题,参数高效微调(PEFT)技术应运而生。在PEFT家族中,LoRA是重要进展,而DoRA在其基础上提出了权重分解的思想。然而,DoRA在优化模型权重的大小和方向时存在耦合问题,易导致过拟合。本文提出的BiDoRA方法,通过双层优化框架,将大小和方向的更新解耦,显著提升了模型的泛化能力。实验证明,BiDoRA在多种任务上优于LoRA和DoRA,尤其在生物医学等小数据集场景下表现突出。通过增加重训练阶段,BiDoRA的性能进一步得到提升,为大模型在数据稀缺领域的应用提供了新途径。

### 💡 BiDoRA方法的核心在于双层优化框架:将模型权重的更新分解为“大小”(magnitude)和“方向”(direction)两个独立维度,并通过内层循环(冻结大小,优化方向)和外层循环(优化大小)的嵌套优化,实现了解耦训练,有效抑制过拟合,提升模型泛化能力。

### 🚀 BiDoRA在解耦训练中展现出更强的泛化能力:实验数据显示,BiDoRA训练的模型在训练集和测试集上的表现差距(performance gap)远小于DoRA。在生物医学等极小数据集上,BiDoRA效果提升显著,例如在预测肽类穿透血脑屏障任务中,BiDoRA仅用全量微调1/326的参数,F1分数就高于DoRA。

### 📈 BiDoRA的训练动态更接近完整微调:通过权重分解分析,研究发现BiDoRA实现了高达-8.042的权重大小与方向更新的负相关性,远超LoRA和DoRA,表明其训练过程更贴近理想的完整微调,为性能优异提供了有力支撑。

### 🎯 引入重训练阶段进一步提升BiDoRA性能:在双层优化搜索阶段结束后,通过固定最优“大小”分量,并用全部训练数据对“方向”分量进行充分训练的重训练阶段,BiDoRA的性能在几乎所有任务上都获得了显著且一致的提升,完全超越了DoRA。

### 🔬 BiDoRA在生物医学等小数据集领域具有巨大应用潜力:由于其强大的抗过拟合能力,BiDoRA在数据资源极其宝贵的生物医学领域展现出巨大潜力,能够帮助解决大模型在小数据集上易过拟合的问题,并可能在未来几年内产生具体的应用价值。

如今,像 GPT 系列这样的大模型已经展现出了惊人的通用能力,但要让它们在某个具体领域发挥最大效力,还需要进行“微调”(Fine-Tuning)。传统的“完整微调”方法,需要调整模型中全部的数百亿甚至千亿参数,这不仅需要海量的计算资源(比如数十上百块顶级 GPU),训练时间也十分漫长。因此,“参数高效微调”(PEFT,Parameter-Efficient Fine-Tuning)技术应运而生,它旨在只调整模型中极小一部分的参数,就能达到接近甚至超越完整微调的效果。

在 PEFT 家族中,LoRA 是一个里程碑式的工作。而研究团队关注到,业内最近提出的 DoRA(Weight-Decomposed Low-Rank Adaptation)在 LoRA 的基础上更进了一步。DoRA 的核心思想是,它认为模型权重的更新,可以被分解为“大小”(magnitude)和“方向”(direction)两个独立维度的变化。这个洞察非常深刻,因为它更贴近模型在完整微调时的真实动态。通过这种分解,DoRA 确实在很多任务上超越了 LoRA。

然而,在深入研究 DoRA 的过程中,研究团队发现它虽然方向走对了,但仍然存在一些问题。DoRA 在训练时,是同时优化大小和方向这两个部分的,并且用的是同一份训练数据。研究团队认为这种“耦合”的优化方式会带来两个关键问题:第一,它让模型的能力过于强大,很容易“死记硬背”训练数据,导致在面对新数据时表现不佳,也就是人们常说的“过拟合”。第二,大小和方向的同步更新会形成一种内在的牵制,限制了模型寻找最优解的学习能力。

所以,研究团队这次研究的核心目标非常明确:保留 DoRA 关于权重分解的深刻洞察,但要打破其大小和方向更新过程中的耦合性。因此,其希望设计一种新的训练范式,能够让这两个组件的优化过程分离开来,从而有效抑制过拟合,使其性能表现能再上一个台阶。

针对上面提到的问题,研究团队最终研发出了一种全新的 PEFT 方法,称为 BiDoRA(Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation)。它的核心是一种基于双层优化(Bi-level Optimization)的训练框架。

(来源:https://arxiv.org/pdf/2410.09758)

它将原本一体化的训练过程,巧妙地拆分成了两个相互嵌套、异步进行的循环。具体来说,研究团队会把训练数据分成训练集和验证集两部分。在“内层循环”里,先“冻结”住权重的大小(magnitude),只用训练集来学习权重的“方向”(direction)。这一步的目标是,在给定大小的情况下,找到最好的方向。接着,在“外层循环”中,研究团队利用刚刚在内层学到的最优方向,反过来在验证集上评估并更新权重的大小。这一步的目标是,为已经找到的最佳方向,匹配一个最合适的大小。

通过这种方式,研究团队成功地在训练动态上将大小和方向的更新过程解耦,还因此发现了一些新规律和新现象:

首先,他们证实解耦训练能够显著提升模型的泛化能力。实验数据显示,BiDoRA 训练的模型在训练集和测试集上的表现差距(performance gap)远小于 DoRA。同时, 在生物医学领域的极小数据集上(训练数据小于 1000 个),BiDoRA 效果提升显著。在预测肽类是否能穿透血脑屏障(BBB,Blood-Brain Barrier)时,BiDoRA 仅使用全量微调 1/326 的参数,就实现了显著更高的 F1 分数(92.0 对 89.4)。在预测蛋白质热稳定性时,BiDoRA 使用全量微调 1/408 的参数,F1 分数几乎相同(78.2 对 78.4)。BiDoRA 在多项任务中持续优于当前最先进的参数高效微调方法,如 LoRA 和 DoRA。

其次,他们还发现了一个新规律。学界已经有研究表明,在理想的完整微调中,权重大小和方向的更新存在一种负相关的关系。研究团队借助“权重分解分析”这一工具,发现 LoRA 表现为正相关,这解释了它为什么有时效果不佳,而 DoRA 改进了这一点,呈现出-1.784 的负相关。而研究团队的 BiDoRA,得益于彻底的解耦训练,实现了高达-8.042 的负相关性。这意味着 BiDoRA 的训练动态更接近于完整微调,这为它的优异性能提供了强有力的实验支撑。

在论文的同行评审阶段,研究团队收到了来自多位匿名审稿人的专业且中肯的意见。综合来看,审稿人们的赞誉主要集中在以下几个方面:

首先,审稿人普遍认为本次课题的研究动机非常清晰且具有说服力。研究团队精准地指出了现有先进方法(DoRA)中存在的“耦合更新”这一核心缺陷,并以此为切入点展开研究,使得整个工作的逻辑链条非常坚实。

其次,审稿人也对研究团队提出的 BiDoRA 方法的原创性和新颖性给予了高度评价。将双层优化(Bi-level Optimization)这一已在其他领域(如神经架构搜索)验证的有效思想,创造性地应用于 PEFT 领域,并以此来解决权重分解中的耦合问题,这被认为是一个非常聪明且有效的尝试。

再者,审稿人对研究团队实验的全面性和扎实程度印象深刻。他们不仅在多个权威的自然语言理解基准(如 GLUE)上验证了方法的有效性,还将实验扩展到了自然语言生成、命名实体识别,甚至是一些数据量极度稀缺的生物医学任务上。在所有这些场景下,BiDoRA 都展现出了一致的优越性。

研究团队对 BiDoRA 的应用前景非常乐观,尤其是在那些数据资源极其宝贵的领域。在未来的几年内,研究团队认为它可以在生物医学领域产生具体的应用价值,这也正是研究团队在论文中特别进行实验验证的方向。在生物医学研究中,获取高质量、大规模的标注数据往往是极其困难和昂贵的。在这样“极小数据集”的场景下,传统的大模型微调方法极易发生严重的过拟合。而本次方法天生就具有强大的抗过拟合能力,因为它通过双层优化的机制,引入了内部的验证与权衡,迫使模型学习更具泛化性的特征。论文中的实验也清楚地表明,在这些生物医学任务上,BiDoRA 相比其他方法的优势甚至比在数据充足的自然语言处理任务上更为明显。

据了解,在研究团队最初设计出 BiDoRA 的双层优化框架时,其发现 BiDoRA 虽然比 LoRA 要好,但相比 DoRA 的提升并不像理论分析的那么显著。研究团队猜想:会不会是因为他们的双层优化机制,将本就不算多的训练数据进一步分割成了更小的训练集和验证集,导致每个训练循环得到的数据不够多?这时,研究团队立刻联想到了在“神经架构搜索”(NAS,Neural Architecture Search)领域的一个常用技巧。在 NAS 中,研究者们通常会先在一个代理任务上搜索出最优的网络架构,然后会有一个“重训练”(Retraining)阶段:固定住搜索到的这个最优架构,再用全部的训练数据从头开始训练这个架构的权重,以求达到最佳性能。

研究团队决定借鉴这个思想,于是在 BiDoRA 的流程中增加了一个最终的重训练阶段:在双层优化的“搜索阶段”结束后,他们固定住学到的最优的“大小”分量,然后合并原始的训练集和验证集,用这完整的数据集,对“方向”分量进行一次充分的训练。当再次进行加上了重训练步骤的实验后,结果表明,BiDoRA 的性能在几乎所有任务上都获得了显著且一致的提升,完全超越了 DoRA,展现出了研究团队理论预期的强大实力。

在后续研究计划上:

研究团队的第一个方向是计划进一步提升 BiDoRA 的训练效率和理论完备性。正如其在论文的“未来工作”部分提到的,BiDoRA 虽然效果好,但它的双层优化机制引入了额外的计算开销,特别是在计算“超梯度”(hyper-gradient)时。目前,研究团队的实现方式是相对基础的,但学界已经涌现出一些更先进、更高效的超梯度估计算法,比如 SAMA、MixFlow-MG 等。因此,研究团队的下一步计划是,将这些前沿的优化技术集成到 BiDoRA 中,目标是在不牺牲甚至提升性能的前提下,大幅降低其训练时间和计算成本。同时,他们目前更多是通过大量实验经验性地证明了 BiDoRA 在解耦权重更新上的优越性,未来其希望能够从数学上给出一个严格的理论分析,从根本上揭示其工作机理。

第二个方向也是研究团队更期待的一个方向,是将 BiDoRA 更深入、更广泛地应用于生物医学领域。其在当前工作中已经初步验证了它在小数据集上的巨大潜力,这给了他们极大的信心。接下来,研究团队计划与生物、医学领域的专家进行更紧密的合作,将 BiDoRA 作为一个核心工具,去挑战一些更复杂、更前沿的课题。

参考资料:

https://arxiv.org/pdf/2410.09758

排版:刘雅坤

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BiDoRA 参数高效微调 PEFT LoRA DoRA 大模型 双层优化
相关文章