原创 PENG Bo 2025-11-02 14:40 广东
DeltaNet源自2021年的Linear Transformers Are Secretly Fast Weight Programmers
💡Tips转自知乎用户 PENG Bo,原文链接:https://zhuanlan.zhihu.com/p/1968125283853907944在世界首个新型RNN LLM,即RWKV-2的介绍中,我在TODO写下的“可公开的信息”,在2022年初就已预言未来几年新型RNN的诸多发展:图链接:https://github.com/BlinkDL/RWKV-LM/blob/main/RWKV-v2-RNN.png
最近,杨某某的小粉丝,护主心切,又开始虚空造牌:
说人话:Schmidhuber做了DeltaNet的初版,但设计粗糙,LLM性能差,因而默默无闻。RWKV-7直接给出了DeltaNet的满血版,性能最佳。这对于纯RNN很重要,因此我能持续发布强纯RNN。杨某某,先用DeltaNet拼RWKV的shortconv做了“DeltaNet”,性能捉急。杨某某,再继续拼RWKV的decay(但缩水)做了“Gated DeltaNet”,好点,但仍与RWKV-7有显著差距(Qwen3-Next用的是这个,混合模型有attention分担,对于RNN的要求更低)。Kimi把“Gated DeltaNet”的设计,往RWKV-7挪了一大步,缩小了与RWKV-7的差距,称为“Kimi Delta Attention”。国内大厂都在遮遮掩掩。如果直接用RWKV-7,性能就是最好的。而且RWKV-7的训练非常稳定,经过验证。但是,由于种种公司政治,即使我在年初主动找到国内各家大厂说,很愿意分享所有训练细节,你们可以在自己数据训练,我完全不接触你们的数据和训练,纯属双赢,国内大厂都会找各种借口推托。中厂倒是感兴趣,但受限于自身水平不敢试,或自身难保。没事,下文可见,现在用RWKV的论文增长迅速。发论文不存在这些政治,什么架构的效果好,大家试过就知。
最近几年,我为了防止被恶意抄(各路用RWKV技巧做“新架构”的人,从来不给credit!所以我之前说,你们这个juan,乌烟瘴气的臭水沟,很好地代表了人类的道德水准),只在有其它人意识到某个事情的时候,才公布我的做法。然后,就频繁被人反咬?没事,RWKV8 ROSA,我就不藏那么久,直接公布,看你们怎么抄?例如:RWKV7+ROSA用1M参数做40位加减法(纯端对端训练)我注意到,苏某某已开始造势,竟然没直接喷ROSA,而是虚空造牌,开始胡扯:
在 RWKV.cn 可以看到,全球使用RWKV训练模型的论文已达146篇:
