机器之心 前天 15:39
循环语言模型Ouro:提升参数效率与推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

现代大型语言模型(LLM)通常将推理任务推迟到训练后阶段,未能充分利用预训练数据。字节Seed团队联合多家机构推出的Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,通过在潜在空间迭代计算、采用熵正则化以及扩展数据规模,将推理能力直接构建到预训练阶段。实验表明,Ouro的性能提升并非源于知识存储量,而是得益于更高效的知识操控与推理能力,且其潜在推理过程更接近人类机制。Ouro的1.4B和2.6B参数模型在多项基准测试中可媲美甚至超越更大规模的标准Transformer模型,实现了2-3倍的参数效率提升,为数据受限时代提供了新的扩展路径。此外,Ouro在降低模型有害性方面也表现出色。

💡 **循环语言模型Ouro的创新设计** Ouro模型引入了循环语言模型(Looped Language Models)的概念,其核心在于通过在潜在空间中进行迭代计算,并将推理能力直接融入预训练阶段。与传统的将推理推迟到训练后阶段的LLM不同,Ouro通过其独特的架构,例如共享权重层的循环应用和学习到的“退出门”机制,使得模型能够根据输入复杂性动态调整计算深度,实现“潜在推理”。这种设计显著提升了模型的参数效率和知识操控能力。

🚀 **显著提升的参数效率与性能** 通过对照实验,Ouro模型证明了其性能提升并非源于知识量的简单叠加,而是得益于更高效的知识处理和推理机制。具体而言,Ouro的1.4B和2.6B参数模型在多项基准测试中,能够达到甚至超越规模为4B和8B的标准Transformer模型的性能。这意味着Ouro实现了2-3倍的参数效率提升,为在数据受限的未来提供了可行的新型模型扩展路径。

🧠 **更接近人类的推理机制与安全性** 研究表明,Ouro模型的潜在推理过程比标准LLM更接近真实的人类推理机制。其迭代潜变量更新机制产生的是因果一致的推理过程,而非事后解释。此外,LoopLM架构在HEx-PHI基准上显著降低了模型的有害性,且随着循环步数的增加,模型的安全性得到进一步提升,这为构建更负责任和可靠的AI系统提供了重要启示。

2025-11-04 11:43 北京

参数效率飙升3倍,2.6B模型性能超越8B。

机器之心报道

机器之心编辑部

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

为解决这一问题,字节 Seed 团队联合多家机构推出了 Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,其名称源于象征循环与自我吞噬的「衔尾蛇」(Ouroboros)。

Ouro 另辟蹊径通过(i)在潜在空间中进行迭代计算,(ii)采用熵正则化目标以实现学习型深度分配,以及(iii)扩展至 7.7T tokens 的数据规模,将推理能力直接构建到了预训练阶段。 这些设计使得模型能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。

论文标题:Scaling Latent Reasoning via Looped Language Models 

论文地址:https://arxiv.org/pdf/2510.25741

项目主页:https://ouro-llm.github.io/

HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通过对照实验,研究者发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相比标准 LLM,更接近真实的人类推理机制。

Ouro 循环语言模型的性能。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用 4 个循环步,红色)与单独的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上超越它们。

最终,Ouro 的 1.4B 和 2.6B 参数规模的 LoopLM,分别能在几乎所有基准测试中达到与 4B 和 8B 标准 Transformer 相当的性能,实现了 2–3 倍的参数效率提升,显示了其在数据受限时代下作为一种新型扩展路径的潜力。

在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如 Qwen3 和 DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与 4B 规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到或超越了 8B 规模模型。

另外,LoopLM 架构在 HEx-PHI 基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的 CoT 方法不同,研究者的迭代潜变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。

循环架构

LoopLM 架构的灵感来源于「通用 Transformer」。其核心思想是在一个固定的参数预算内实现「动态计算」。具体而言,该架构包含一个由 N 个共享权重层组成的「层堆栈」。

在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个「循环步骤」。这种设计将模型的计算规模从「参数数量」解耦到了「计算深度」。

该架构的关键特性是其自适应计算能力。它集成了一个学习到的「退出门」,当模型处理输入时:简单输入可能会在经历较少的循环步骤后就提前退出,从而节省计算资源;复杂输入则会自然地被分配更多的迭代次数,以进行更深层的处理。

这种迭代重用被视为一种「潜在推理」。与 CoT 在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个「潜在思想链」。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。

训练流程

Ouro 的训练流程是一个多阶段过程,总共使用了 7.7T tokens 的数据。

如图 4 所示,该流程始于一个通用的预热阶段,随后是使用 3T token 的初始稳定训练阶段。在此之后,模型通过「upcycling」策略分支为 1.4B 和 2.6B 两种参数规模的变体。

两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT 退火(CT Annealing, 1.4T token)、用于长上下文的 LongCT(20B token)以及中途训练(Mid-Training, 300B token)。

这个过程产生了 Ouro-1.4B 和 Ouro-2.6B 两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。

在训练稳定性方面,团队发现最初使用 8 个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到 4,以此在计算深度和稳定性之间取得了平衡。

为了让模型学会何时「提前退出」,训练流程采用了新颖的两阶段目标:

循环语言模型架构概览。

左图为训练阶段。在训练过程中,模型使用共享参数的 N 层堆叠结构,并执行 n 个循环步骤(R = 1 到 R = n)。在每个循环步骤 i,一个退出门预测退出概率 pᵢ,而语言建模头 Lᵢ 则计算对应的任务损失。 训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项 H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。

右图为推理阶段。在推理时,模型可根据由退出概率计算得到的累计分布函数(CDF)提前终止。当超过设定阈值时,模型将在第 i 个循环步骤停止,从而实现自适应计算:为复杂输入分配更多循环步数,同时在简单输入上保持高效推理。图中的虚线表示模型在提前退出后可能被跳过的后续步骤。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ouro 循环语言模型 Looped Language Models 参数效率 推理能力 大型语言模型 LLM AI 深度学习
相关文章