PaperWeekly 08月15日
告别Transformer?上海交大「原生类脑」BriLLM首秀:信号流重塑大模型范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交通大学团队提出首个宏观模拟人类大脑全局机制的大语言模型 BriLLM,脱离传统 Transformer 架构,以脑科学神经系统为灵感,用动态信号传播替代注意力机制。BriLLM 解决了 Transformer 在算力需求、可解释性及上下文规模上的三大缺陷,实现了全模型可解释、无限上下文处理和参数规模的显著降低。其独特的 SiFu(Signal Fully-connected Flowing)学习机制,使得模型内部信号流传导遵循“最小阻力原则”,为未来多模态和具身智能的发展奠定基础,有望成为 AGI 的关键一步。

🧠 **模拟人脑全局机制,开辟大模型新范式**:BriLLM 借鉴脑科学研究,将语言处理视为大脑皮层区域的分布式编码和动态电信号传播过程,而非 Transformer 的注意力机制。通过全连接有向图设计,每个词元拥有专属节点,信号沿“最小阻力路径”流动,从而在宏观层面模拟人脑的全局工作机制,为大模型研究提供了全新的视角。

🚀 **颠覆 Transformer 局限,实现三大突破**:BriLLM 在算力需求(避免 Transformer 的 O(n²) 复杂度)、模型可解释性(实现全模型端到端可解释)和上下文规模(模型参数与序列长度解耦,支持无限上下文)方面均有显著突破。其 SiFu 机制通过动态信号传播预测,克服了传统模型在处理长文本时的瓶颈。

💡 **100%可解释性与高效参数设计**:BriLLM 的全模型可解释性允许用户将概念、token 等直接映射到图中的特定节点,使得推理过程完全透明。通过“低频词元边共享”等方法,模型参数规模大幅缩减近 90%,显著降低了算力需求和训练成本,为经济实用的千亿级脑启发模型铺平了道路。

🌐 **无限上下文处理与解耦**:BriLLM 的核心优势之一在于其对上下文长度的无限支持,且这一能力与模型规模完全解耦。这意味着模型容量无需随着上下文的增长而扩张,如同人脑能处理终身记忆一样,为实现更强大的通用人工智能提供了可能。

🌟 **迈向多模态与具身智能的基石**:BriLLM 的“节点-信号”设计天然支持多模态信息的融合,只需为新模态定义节点即可,无需重新训练。这使得 BriLLM 成为整合视觉、听觉乃至具身交互信号的通用框架,为构建感知-运动整合的 AGI 奠定了基础。

让你更懂AI的 2025-08-14 23:53 河北

不是 MoE、不是 RNN,BriLLM 走出第三条路

当前 GPT 类大语言模型的表征和处理机制,仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下,人类大脑直接在分布式的皮层区域中编码语义,如果将其视为一个语言处理系统,它本身就是一个在全局上可解释的「超大模型」。

因此,为了解决现有基于 Transformer 大模型的三个主要缺陷:算力需求高、不可解释性的黑箱、上下文规模受限,上海交通大学团队刚刚发布首个宏观模拟人类大脑全局机制的大语言模型 BriLLM,脱离了传统 Transformer 架构的限制,以脑科学神经系统为灵感,用受大脑启发的动态信号传播替代了基于注意力的架构。

Github地址

https://github.com/brillm05/BriLLM0.5

论文地址:

https://arxiv.org/pdf/2503.11299

模型权重:

https://huggingface.co/BriLLM/BriLLM0.5

突破Transformer:模拟人脑学习机制

以 Transformer 为主流的当代大模型架构存在一些明显的局限性:  

「人类大脑无需扩容就能处理终身记忆,这才是 AGI 该有的样子!」论文一作赵海教授指出。赵海团队的设计灵感来源于脑科学的两项关键发现:

静态语义映射

大脑皮层区域分工明确,Nature 2016 论文的研究显示,语言元素的语义特征分布在整个大脑皮层,不同的皮层区域会编码特定的语义内容,而且这种组织方式在不同个体之间具有一致性。比如,当人们思考 「房子」 的时候,大脑中会激活与 「房子」 概念相关的特定区域。

动态电信号传导

人的决策过程依赖于神经通路中不断变化的电信号流动 —— 即便同样的输入,信号路径和强度也会根据语境与任务需求而变化。

受此启发,赵海团队提出了一种全新的机器学习机制 ——SiFu(Signal Fully-connected Flowing)学习机制他们在此基础上构建了 BriLLM 模型,这是第一个在计算层面上模拟人脑全局工作机制的语言模型。

BriLLM 模型突破了传统 Transformer 架构的限制,这是一种基于有向图的神经网络设计,使得模型中所有节点都具备可解释性,而非像传统模型那样仅在输入输出端具有有限的解释能力。

模型内部的信号流传导遵循 「最小阻力原则」,模拟大脑信息流动的方式,不仅提升了模型的效率,也增强了其解释性。

在类脑计算领域,spike 脉冲神经网络是神经网络类脑化改造的重要方法之一,它是在神经元激活方式上做了局部微观的类脑改进。

为了和这样脉冲改进的类脑 GPT 大模型区分开来。赵海教授团队将 BriLLM 称之为「原生类脑大模型」,以体现 BriLLM 在宏观上对于人脑的计算模拟。

三大颠覆性创新,重新定义LLM底层逻辑

信号全连接流动(SiFu)机制  

在 SiFu 中,信号传递取代了传统机器学习中的核心预测操作,就像神经电信号在突触间跳跃,最终激活目标神经元的过程。

▲ SiFu有向图的示意图(节点旁的数字表示能量分数)

无限上下文处理  

预测过程通过节点间的信号传播实现。由于信号可以自由流动于网络各节点之间,因此序列预测理论上支持任意长的上下文输入,且不依赖于模型的规模扩展。

也就是说,模型参数完全独立于序列长度,并且长上下文无需增加参数量。

这和人脑的功能优势相似,并不因为需要学习记忆大量知识而就必须扩充模型容量。

100%可解释

性能对标初代GPT

尽管作为概念验证的初代模型(2B/1B 参数)未追求规模,但实验表现稳定,展现全新大语言模型的全流程链路已经打通。

团队发布了 BriLLM-Chinese 和 BriLLM-English 两个版本:

受到大脑神经通路复用的启发,BriLLM 利用「低频词元边共享」的方法,让参数规模降低 90%:

大多数二元组(bigram)很少出现甚至未出现,因此允许对不活跃边共享参数。

对于这些低频二元组,采用一个固定且不更新的矩阵,从而将模型大小缩减至中文版本约 20 亿参数、英文版约 10 亿参数,分别仅占原模型规模的 13.0% 和 5.7%。这不仅减少了参数量近 90%,同时也显著加速了训练过程。

这为经济实用的千亿级脑启发模型铺平道路。按照这个稀疏比率,当 BriLLM 的 token 词表扩展到目前 GPT-LLM 同等程度的 4 万时候(当前为 4000),预期的模型参数量将在 100-200B(1000-2000亿参数)

全词表的 BriLLM 并不比目前 SOTA 的 GPT-LLM 更大。但是请注意,BriLLM 不会有 GPT-LLM 那种随着输入上下文增长而必须进行模型扩张的问题,因为前者天然支持无限长物理上下文,并和模型规模扩张解耦。即,模型规模不变情况下,物理支持任意长上下文。

▲ BriLLM的架构

展望:多模态+具身智能的终极形态

BriLLM 的「节点 - 信号」设计以及全模型可解释性天生支持多模态融合:模型中的节点不仅限于表示语言 token,还可以映射多种模态的单元。

引入新模态时,只需为其定义对应的节点,无需从头训练模型 —— 这与依赖输入 / 输出界面对齐的传统大语言模型截然不同,例如:

「这将是首个能真正模拟感知 - 运动整合的通用框架。」团队透露,下一步将向实现多模态脑启发 AGI 的方向努力。

简而言之,BriLLM 提出了全新的语言模型架构、全新的动态信号驱动的生成式人工智能任务框架以及首个对人类大脑核心表达与功能机制的宏观全局尺度计算模拟的模型。

本项目已进入选上海交通大学「交大 2030」计划 2025 年度重点项目资助。该重点项目每年全校动用双一流建设经费仅资助五项,额度 500 万。按照「交大 2030」计划的官方指南明确,它只资助颠覆性从 0 到 1 的创新、世界级的基础研究。

关于作者:

本文一作赵海,上海交通大学计算机学院长聘教授、博士生导师,上海交通大学通用人工智能(AGI)研究所所长。研究兴趣:自然语言处理、人工智能和大模型。据 MIT 主办的世界大学计算机学科排行榜 csrankings 数据统计,上海交通大学计算机学科排名国内第三,赵海教授在其中的 AI 和 NLP 方向的论文贡献度第一,占整个交大标准发表总量 1/4。Google Scholar 引用 11900 次。2022、2023、2024 年,连续入选爱思唯尔高被引学者。 

本文二作伍鸿秋,赵海教授 2020 级博士生;本文三作杨东杰,赵海教授 2022 级博士生;本文四作邹安妮,赵海教授 2022 级硕士生;本文五作洪家乐,赵海教授 2024 级硕士生。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BriLLM 大语言模型 类脑计算 人工智能 Transformer
相关文章