我爱计算机视觉 前天 17:14
Meta Free Transformer:为大模型注入“自由意志”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta AI提出了一种名为“Free Transformer”的新架构,旨在解决当前大型语言模型(LLM)生成内容“死板”的问题。该架构巧妙地将变分自编码器(VAE)思想融入标准解码器Transformer中,通过在中间层注入可学习的随机变量Z,并重用解码器结构构建编码器,以极小的计算代价实现了生成内容的多样性,并在多个基准测试中提升了模型性能,尤其在推理能力方面表现突出。

💡 **引入“自由意志”以增强LLM多样性**:Free Transformer旨在解决标准Transformer模型生成内容确定性高、缺乏创意的问题。通过在模型内部引入一个可控的随机变量Z,它使得模型在生成过程中拥有一定的“自由意志”,从而能够产生更多样化、更富创意的输出。

🚀 **高效的VAE集成方式**:该架构巧妙地将VAE的变分思想融入Transformer解码器中。与传统条件VAE需要额外完整编码器带来高昂计算和参数开销不同,Free Transformer通过“借用”解码器前半部分并增加一个非因果Transformer层作为编码器,实现了极小的额外开销,极大地提升了效率。

🧠 **潜变量Z捕捉与解耦信息**:通过合成数据实验证明,潜变量Z能够有效地捕捉和解耦数据中的结构化信息,如目标的位置和噪声信息。这表明Free Transformer能够让模型更深入地理解数据的内在结构。

📈 **性能提升与多样性兼得**:在不同规模的模型和大量Token的训练下,Free Transformer在引入约3.1%-3.6%额外计算和参数开销的情况下,不仅实现了生成内容的多样性,还在数学推理、代码生成等多个基准测试中取得了显著的性能提升,证明了其在提升模型归纳和推理能力方面的潜力。

CV君 2025-10-24 12:15 江苏

Meta出品,让LLM生成更多样更高能

今天和大家聊一篇来自Meta AI的有趣工作,论文标题为《The Free Transformer》。这篇论文给我们带来了一种新的思路,旨在解决当前大型语言模型(LLM)生成内容时略显“死板”的问题。

我们知道,标准的Transformer模型在生成文本时,本质上是一个接一个地预测下一个词,这个过程是确定性的。这意味着,对于同一个输入(prompt),模型总是倾向于生成相同或非常相似的输出。虽然可以通过一些采样技巧(比如temperature sampling)增加一些随机性,但模型本身的核心机制并没有改变。

那么,有没有办法让模型在“思考”的源头就引入一些可控的“自由意志”,从而生成更多样、更有创意的结果呢?这正是这篇论文要探讨的核心。作者提出了一种名为“Free Transformer”的新架构,它巧妙地将变分自编码器(VAE)的思想融入了标准的解码器Transformer中,而付出的计算代价却非常小。

论文标题: The Free Transformer

作者: François Fleuret

机构: FAIR at Meta

论文地址: https://arxiv.org/pdf/2510.17558

Free Transformer是如何工作的?

要理解Free Transformer,我们可以先看看它和另外两种架构的对比。

上图清晰地展示了三者的区别:

(a) 标准解码器Transformer: 我们最熟悉的结构,根据前面的词预测下一个词。

(b) 条件VAE (CVAE) 扩展: 这种方法在推理时会引入一个随机变量Z,理论上可以生成多样的内容。但它的缺点是训练时需要一个独立的、完整的编码器(Encoder)来学习如何从输入文本中提取这个Z,这带来了巨大的计算和参数开销。

(c) Free Transformer: 这就是本文的主角。它非常聪明地解决了(b)的痛点。它同样引入了随机变量Z,但不是在开头,而是在模型的“腰部”——也就是中间层注入。更关键的是,它在训练时不再需要一个完全独立的编码器,而是“借用”了解码器的前半部分,再额外增加一个非因果的Transformer层来充当编码器。

这种“借用”的设计是Free Transformer的核心亮点,它使得编码器的额外开销变得非常小。

深入架构细节

我们再通过下面这张更详细的架构图来看看它的具体实现。

整个流程可以这样理解:

输入: 和普通Transformer一样,输入的是一串文本序列(tokens)。

编码过程(仅在训练时):

输入文本首先通过前半部分(L/2层)的解码器模块。

其输出随后被送入一个专用的、非因果的“Encoder Non-Causal Transformer Block”(图中橙色部分)。这个模块可以“看到”整个输入序列,从而捕捉全局信息。

最后,通过一个线性层和一个“Binary Mapper”生成随机变量Z的分布,并从中采样得到Z。

解码过程(训练和推理):

在模型的中间层,这个采样出的Z会通过一个全连接层(Post-sampler FC)处理后,与原始的文本表示相加。

这个融合了随机信息Z的新表示,继续通过后半部分的解码器模块。

最终生成预测的logits,完成文本生成。

推理生成时,整个橙色的编码器部分都会被丢弃。模型直接从一个预设的均匀分布中随机采样Z,然后注入到解码器中。这样一来,每次采样不同的Z,模型就能生成不同的输出,实现了在几乎不增加推理成本的前提下的多样化生成。

实验效果如何?

说了这么多原理,最终还是要看效果。作者从两个方面验证了Free Transformer的性能。

合成数据实验:Z到底学到了什么?

为了直观地理解随机变量Z到底在学习什么,作者设计了一个有趣的合成数据集。数据集中包含一个由特定字母组成的“目标”,以及一些随机的“噪声”(感叹号)。

通过调整KL散度(衡量Z中信息量的指标)的权重,作者观察到了清晰的模式:

KL散度很低时:模型基本退化成一个普通Transformer,Z没学到什么有用信息。

KL散度增加时:Z首先学会了编码“目标”的位置信息。

KL散度再增加时:Z不仅编码了位置,还编码了“噪声”的信息。

KL散度过高时:Z试图编码整个序列,反而导致生成出错。

这个实验非常直观地证明了,Free Transformer确实能利用Z来捕捉和解耦数据中的不同结构化信息。

大模型基准测试:性能有没有下降?

当然,只在合成数据上表现好是不够的。作者在1.5B和8B参数规模的模型上进行了充分的实验,并与性能优化的基线模型进行了对比。这些模型分别在高达47B、200B甚至1T的token上进行了训练。

结果非常令人鼓舞。Free Transformer在只引入了约 3.1%-3.6% 的额外计算和参数开销的情况下,在多个需要推理能力和代码生成的基准测试(如HumanEval+、MBPP、GSM8K)上取得了显著的性能提升。

1.5B模型在47B tokens上的训练结果

8B模型在200B tokens上的训练结果

8B模型在1T tokens上的训练结果

以8B模型(200B tokens训练)为例,在数学推理任务GSM8K上,性能相对提升了20.18%;在常识问答CSQA上,性能相对提升了26.21%。在1T tokens的更大规模训练下,Free Transformer在HumanEval+、MBPP、GSM8K、MMLU和CSQA等多个任务上都展现了稳定的性能优势。

1.5B模型性能对比

8B模型 (200B tokens) 性能对比

8B模型 (1T tokens) 性能对比

这些结果表明,Free Transformer不仅成功地为模型赋予了生成多样性的能力,甚至还提升了模型在一些复杂任务上的基础性能。CV君认为,这可能是因为引入的潜变量Z帮助模型更好地学习到了数据的内在结构,从而提升了其归纳和推理的能力。

总结

Free Transformer提出了一种非常优雅且高效的方法,通过在Transformer解码器中间层注入一个可学习的随机变量,并巧妙地重用网络结构来构建编码器,成功地将VAE的思想引入了LLM。它以极小的代价,同时实现了“生成多样性”和“性能提升”两个目标,这在以往的研究中是很难兼得的。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Free Transformer Meta AI Large Language Models LLM Transformer VAE AI Machine Learning Generative AI 模型多样性 模型性能 AI研究
相关文章