index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
OpenAI提出一种新方法,通过在训练中强制Transformer模型保持高度稀疏,迫使其仅使用极少数连接完成计算。这种方法使得模型内部用于推理的“计算电路”首次以可分离、可验证、可操控的方式显现。与事后分析不同,该研究从训练源头入手,阻止模型变得臃肿,从而揭示出清晰且可追踪的因果链。实验表明,这些稀疏电路不仅能描述模型计算过程,还能预测和影响密集模型的行为,为理解和控制大型模型提供了新的可能性。
💡 **源头稀疏训练,揭示模型内部“计算电路”**:OpenAI通过在训练过程中强制Transformer模型保持极高的权重稀疏度,迫使模型仅依赖极少数连接进行计算。这种方法不同于传统的“先密集后剪枝”模式,而是从训练伊始就限制模型的连接数量,从而让真正用于推理的“计算电路”以清晰、可追踪的形式显现,这是理解Transformer内部机制的重大突破。
🔗 **电路的因果可验证性与可操控性**:研究发现,这些显现出的计算电路不仅能描述模型如何进行计算,还具备因果上的可验证性。研究人员可以单独操作电路中的节点,预测密集Transformer模型的错误模式,甚至能够引导密集模型按照稀疏电路的方式做出响应。这表明Transformer并非天生不可解释,而是可以通过可解释的训练方式来引导其成长。
📊 **规模与性能的新平衡:更小、更强、更可解释**:实验结果显示,与密集模型相比,稀疏模型所需的最小电路规模显著更小(约小16倍),且在达到相同性能时结构更稳定。令人意外的是,随着稀疏模型的规模增大,其性能反而提升,而最小电路规模却在缩小。这颠覆了“可解释性与能力必然对立”的观点,证明了两者可以同时提升,为构建可控、可验证的大模型提供了新方向。
🔧 **Bridge技术连接稀疏与密集模型,实现解释与驱动**:为了将稀疏电路的解释能力应用于实际生产中的密集模型,研究者开发了“Bridge”技术。该技术通过线性映射将密集模型的激活映射到稀疏模型,再映射回密集模型,并使用损失函数对齐中间激活。实验证明,通过Bridge,稀疏电路不仅能准确推断密集模型的错误行为(如长序列中的上下文稀释),还能直接影响密集模型的输出概率,实现对密集模型的驱动。
🚀 **Transformer可解释性新范式**:这篇论文提出了一种全新的Transformer可解释性思路:不是在已训练好的密集模型上进行事后分析,而是让模型在训练过程中自然形成可解释的结构。在高度稀疏的约束下,Transformer的功能被集中到少数关键路径上,这些路径(计算电路)可以被提取、理解、验证,甚至用于操控模型的决策。这为未来模型规模增长的同时,追求结构化、可控、可验证的内部组织方式开辟了新路径。
原创 让你更懂AI的 2025-11-14 11:47 北京

可解释性新路线
OpenAI 做了一件几乎没人敢尝试的事:把 Transformer 的权重在训练中直接压到近乎全零,强迫它用极少的连接完成所有计算。在这种极端约束下,模型内部真正承担推理的“计算电路”第一次以可分离、可验证、可操控的方式显形。这大概是我们迄今最接近理解 Transformer 内部机制的一次时刻。
大模型时代里,Transformer 的黑箱感其实早已成为共识。无论是查看注意力头、分析激活分布,还是构造反事实示例,所有常用手段都会在 dense Transformer 的层间混叠里碰壁:上万条通道挤在同一空间,很难看出清晰的结构。OpenAI 这篇 Weight-sparse Transformers Have Interpretable Circuits 选择了完全反向的路径,不是在 dense 模型上做事后解释,而是在训练的第一步就阻止模型变 dense。权重在训练全程保持接近全零,模型必须在极少的连接里完成任务。冗余路径被压到最小之后,那条真正用于推理的最短因果链——论文中的计算电路(circuit)便以清晰且可追踪的形式露出来。意外之处在于:这些电路不仅能描述模型计算过程,还具备因果上的可验证性。你可以单独操作其中的节点、预测 dense Transformer 的错误模式,甚至让 dense 模型按照稀疏电路的方式发生响应。某种程度上,这篇论文提出了一种新的可能性:Transformer 并非天生不可解释,它只是从未在可解释的训练方式下成长。
论文标题:Weight-sparse transformers have interpretable circuits论文链接:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf方法如果说 dense Transformer 像一座道路四通八达的大城市,那么 OpenAI 的做法就是在训练伊始把绝大多数道路封掉,只留下少数主路。所有计算都不得不沿这几条通道进行,而真正负责任务的那条路径,也在这种约束下格外清晰。整个方法可以概括为三步:训练阶段保持高度稀疏、让电路结构自动显形、再让它能解释 dense 模型。1.1 训练时强制稀疏:从源头上避免 denseOpenAI 没有采用“先 dense 再剪枝”的老方法,而是直接规定:每个权重矩阵在任意训练时刻都只能保留固定数量的非零值。于是每一层都在重复:forward:正常计算backward:正常更新projection:只保留最大 k 个权重,其余全部归零
模型从头到尾都处在极端稀疏状态。这样带来三个直接效果:冗余连接无法形成功能很难混叠每个子任务都被迫集中到少数路径
训练框架在论文中被画成了一个非常清晰的流程图。▲ 图1.从稀疏训练到抽取最小计算电路的整体流程。模型在全程保持极端稀疏,通过节点剪枝得到完成任务所需的最小结构。1.2 让模型自己暴露关键节点为让最小电路显形,作者在 residual channel、attention 输入输出等位置加入 gate。模型训练过程中会自然把某些 gate 打开、另外一些保持关闭,从而告诉我们:完成这个任务,我只依赖这些路径。gate 的形式写成:细节不必深究,只需知道:最终被 gate 激活的节点,就是模型真正用到的因果单元。在字符串闭合引号任务中,稀疏模型最终只留下 12 个节点和 9 条边(见下图),整个推理链像蓝图一样干净。
▲ 图2.字符串闭合引号任务所抽取的计算电路1.3 更复杂的推理:嵌套括号深度嵌套括号比引号复杂得多,但稀疏模型给出的电路仍然规整。模型在看到[时写入一个“开括号特征”,再用单一注意力头把所有历史的这一特征聚集起来做平均。不同的平均值代表不同的嵌套深度,输出位置再根据深度决定生成]还是]] 。dense 模型里,这类行为会分布在多个头和大量 residual 通道上,彼此覆盖,不容易分清。但在稀疏模型中,则是一条稳定的链路。
▲ 图3. 稀疏模型计算括号深度的电路示意1.4 Bridge:让稀疏模型解释 dense Transformer稀疏模型结构清晰,但 dense 模型才是我们在生产环境中真正关心的主体。Bridge 的目的就是把两者联系起来,让稀疏电路成为 dense 的“解释接口”。它分两步:将 dense 每层的激活映射到稀疏模型(dense → sparse)再把稀疏激活映射回 dense(sparse → dense)
并用 NMSE loss 对齐:
对应结构在下图中给出:
▲ 图4.Bridge 使用线性映射对齐 sparse 与 dense 的中间激活,使得两者可以互相转换并保持混合路径的性能。实验电路抽取出来之后,一个核心问题紧随而来:这条路到底是不是模型真正依赖的?实验部分基本就是对这个问题的系统验证。2.1电路规模的规律性
dense Transformer 抽出的最小电路大小变化非常大,在同一任务上可能忽大忽小,看不出规律。论文把 dense 与稀疏模型的规模放在同一张图里。dense 的点散得比较开,而稀疏模型的点集中得多,基本沿着一条稳定带状分布。
▲ 图5. 稀疏模型在所有任务上的最小电路规模显著更小,在相同损失下约比 dense 模型小 16 倍。稀疏结构不仅减少参数,也让任务分工更稳定。2.2 模型越大,电路反而更小
结语这篇论文展示了一种不同的可解释性思路:不是在 dense Transformer 上做事后分析,而是让模型在训练过程中自然长成可以被解释的结构。在高度稀疏的权重约束下,Transformer 的功能不再扩散,而是集中在少量关键路径上。这些路径——计算电路——可以被提取、理解、验证,甚至用于操控 dense 模型的决策。从整体实验来看,用稀疏训练获得的电路:有稳定的因果含义可以预测 dense 模型的行为也能反过来调整 dense 模型的输出
这为未来提供了一个新的方向:随着模型规模继续增长,我们也许可以同时追求结构化、可控、可验证的内部组织方式,而不只是盲目增加密度。Transformer 或许第一次展示了自己内部结构的清晰轮廓。 更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
阅读原文
跳转微信打开