index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
我们提出了一种名为 Low-Rank Clone (LRC) 的高效知识蒸馏方法,通过训练低秩投影矩阵将教师大模型直接“投影”成更小的学生模型,无需从头训练或剪枝学生模型权重。仅用约 20B 训练数据,LRC-1.7B 和 LRC-4B 模型即可达到与使用 36T 数据训练的 SOTA 模型相当的性能,实现超过 1000 倍的训练效率提升。LRC 的核心在于低秩投影和激活克隆,将教师模型的知识结构“软压缩”到学生模型维度空间,并通过激活克隆确保学生模型在中间步骤的行为与教师模型保持一致。
🧠 LRC 通过低秩投影将教师模型的知识结构“软压缩”到学生模型维度空间,无需从头训练或剪枝学生模型权重,实现高效的模型压缩。
🔗 LRC 的核心灵感来源于 FFN 模块可以理解为 Key-Value Memory 的观点,通过压缩 Key 和 Value 矩阵实现模型压缩。
🔄 LRC 采用激活克隆机制,通过均方误差损失函数强制学生模型在各个中间步骤的激活值与教师模型保持一致,确保投影后的行为一致。
📈 实验结果表明,LRC-1.7B 和 LRC-4B 模型仅用约 20B 和 18B 训练数据,性能即可达到与使用 36T 数据训练的 SOTA 模型相当的水平,实现超过 1000 倍的训练效率提升。
🤝 LRC 为社区提供了一个低成本、高效率构建强大语言模型的新范式,通过 GitHub 代码和论文分享,鼓励社区进一步发展和应用该技术。
原创 让你更懂AI的 2025-10-20 13:51 北京

不重训、不剪枝,一次投影完成“知识克隆”
最近我们高效蒸馏的工作 “Low-Rank Clone(LRC)”非常幸运被 NeurIPS 2025 接收为 Spotlight。TL;DR:我们通过训练一组 Low-Rank Projection(低秩投影)矩阵,将一个强大的教师大模型(Teacher LLM)直接“投影”成一个更小的学生模型(Student SLM)。我们不需要从头创建或训练学生模型的庞大权重,只需训练这些投影矩阵。
最终,仅用约 20B 训练数据,我们得到的 LRC-1.7B 和 LRC-4B 模型就能取得与使用 36T 数据训练的 SOTA 模型 Qwen3-1.7B 和 Qwen3-4B 相当的性能,实现了超过 1000 倍的训练效率提升。
▲ 核心成果对比图
论文题目:A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone论文链接: https://arxiv.org/abs/2505.12781代码链接:https://github.com/CURRENTF/LowRankClone模型链接:https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf灵感来源既然 FFN 是 key-value memory,能否压缩 memory 的同时保持内容几乎不变?
在介绍我们的方法前,我想先分享一下最初的思考,希望能给大家一些 insights。LRC 的核心灵感直接来源于一篇经典工作 “Transformer Feed-Forward Layers Are Key-Value Memories”(Geva et al., 2021)。这篇文章认为 FFN 模块可以理解为:它其实扮演了一个键值记忆库(Key-Value Memory)的角色 。我们来回顾一下 FFN 的计算过程,以 SwiGLU 激活函数为例 :其中, SwiGLU(a, b) = (a ⊙ σ(b)) 。这个过程可以直观地理解为:1. 查询与匹配:输入向量 x 分别与 W_up 和 W_gate (可以理解为 Key 矩阵) 进行矩阵乘法,计算相似度并生成一个激活值分布 。2. 内容提取:用上一步得到的激活值,对 W_down (可以理解为 Value 矩阵) 进行加权求和,从而提取出存储的知识 。既然 FFN 是一个 Key-Value Memory,那么一个自然而然的问题就来了:我们能否在不显著损害其存储知识的前提下,对 Key 和 Value 矩阵进行压缩?LRC 方法为了实现对 FFN 的压缩,我们设计了一个统一的框架,包含两个核心步骤:低秩投影(Low-Rank Projection)和激活克隆(Activation Clone)。对于 Attention,我们也使用了同样的压缩方法。2.1 Low-Rank Projection:用投影生成学生权重传统方法要么从头训练学生模型,要么通过“硬剪枝”粗暴地丢掉教师模型的部分权重,这两种方式都会导致信息丢失或效率低下。LRC 另辟蹊径,我们不训练学生模型的权重,而是训练一组轻量级的投影矩阵 。学生模型的权重 由教师模型的权重 直接投影生成 。对于 Transformer 的每一层 i 中的每一个权重矩阵 m (例如 q, k, v, o, up, gate, down ),其生成公式如下 :这里, 是教师模型的权重, 是我们唯一需要训练的低秩投影矩阵。通过这种方式,我们将教师模型庞大的权重“软压缩”到了学生模型的维度空间,最大限度地保留了原始知识结构 。▲ LRC 整体流程图2.2 Activation Clone:确保投影后的行为一致仅仅投影权重还不够,我们还需要确保压缩后的 Key-Value Memory 在面对相同的输入时,能产生和教师模型相似的“反应”。因此,我们引入了激活克隆机制,通过均方误差(MSE)损失函数,强制学生模型在各个中间步骤的激活值与教师模型的激活值保持一致 。我们的克隆损失函数 覆盖了注意力模块和 FFN 模块的多个中间输出:其中, 代表 MSE Loss 。这个公式确保了学生模型不仅在最终输出层,更在模型的“思考”过程的每一步,都尽可能地模仿教师模型的行为。最终,模型的总训练目标由三部分组成:传统的 KL 散度损失 、语言模型损失 ,以及我们的克隆损失 。实验结果LRC 的有效性在实验中得到了充分验证。我们用 Llama-3.2-3B 、 Qwen2.5-3B/7B 等开源模型作为教师,训练了一系列 LRC 学生模型 。▲ 小模型性能对比表▲ 大模型性能对比表如上表所示,我们的 LRC-1.7B 模型仅用 20B tokens,平均分达到 64.98,超过了使用 36T tokens 训练的 Qwen3-1.7B (63.17)。同时, LRC-4B 模型使用约 18B 训练 tokens,平均分达到 70.30,与使用 36T tokens 训练的 Qwen3-4B (70.29)性能相当 。3.1 FFN 克隆的重要性我们通过消融实验证明了克隆 FFN 激活值的关键作用。实验表明,移除 FFN 的克隆损失会导致模型性能出现巨大且持续的下降,其影响远超移除注意力克隆损失。▲ 消融3.2 学生模型成功继承了教师的知识分布为了验证我们的核心假设,我们进行了一项神经元掩码实验 。我们发现,在教师模型中对事实性知识反应强烈的“重要神经元”,在学生模型的相同位置也扮演着同样的角色。当我们掩盖这些神经元时,师生模型的性能都会同步大幅下降,这有力地证明了学生模型成功继承了教师的知识结构。▲ 验证总结LRC(Low-Rank Clone)框架通过低秩投影(low-rank projection)和激活克隆(activation-clone),将教师模型的知识高效地转移到学生模型中,实现了超千倍的训练效率提升。我们希望这项工作能为社区提供一个低成本、高效率构建强大语言模型的新范式。如果大家对我们的工作感兴趣,欢迎阅读论文,也给我们 GitHub 点点 Star,我们会继续优化代码让 LRC 更易用。更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·阅读原文
跳转微信打开