RWKV元始智能 前天 02:20
RWKV项目作者揭露部分学术界“投机”现象
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文作者,RWKV项目的开发者,揭露了在新型RNN LLM研究领域存在的一些学术不端行为。他指出,部分研究者在未注明原始贡献者的情况下,挪用RWKV项目的技术设计,并将其包装成“新架构”发表论文。作者特别提到了DeltaNet的起源,强调其核心思想来自Schmidhuber,而RWKV项目对其进行了优化和完善。作者对一些研究者(如“杨某某”)的学术行为表示不满,认为其通过拼凑现有技术并回避原始贡献者来谋取名利。同时,作者也分享了RWKV项目的最新进展,包括RWKV-7和RWKV-8 ROSA,并表示将更开放地分享最新成果,以对抗学术界的“投机”和“抄袭”现象。

💡RWKV项目作者指出,部分研究者在未充分提及原始贡献者的情况下,将RWKV的创新设计(如decay和shortconv)用于“新架构”论文,存在学术挪用和“岁月史书”的现象,并对部分研究者(如“杨某某”)的学术行为表示批评。

🚀作者追溯了DeltaNet的真正起源,强调其核心思想源自Schmidhuber,而RWKV项目对其进行了优化和完善,提供了“满血版”的DeltaNet,性能优于早期拼凑的版本。他认为,Kimi和Qwen等项目在借鉴DeltaNet设计时,应给予Schmidhuber应有的学术署名。

🌟RWKV项目在技术上持续创新,发布了RWKV-7(被认为是性能最佳的纯RNN模型)和RWKV-8 ROSA。作者表示,为了应对被恶意抄袭,他将更开放地公布最新成果,鼓励学术界的良性竞争,并提供技术支持。

📈尽管面临公司政治和潜在的抄袭风险,RWKV项目的影响力正在增长,全球使用RWKV训练模型的论文数量已达146篇。作者强调,RWKV-7是追求最佳RNN性能的选择,并提供了QQ群供技术交流。

原创 PENG Bo 2025-11-02 14:40 广东

DeltaNet源自2021年的Linear Transformers Are Secretly Fast Weight Programmers

💡Tips转自知乎用户 PENG Bo,原文链接:https://zhuanlan.zhihu.com/p/1968125283853907944

在世界首个新型RNN LLM,即RWKV-2的介绍中,我在TODO写下的“可公开的信息”,在2022年初就已预言未来几年新型RNN的诸多发展:

图链接:https://github.com/BlinkDL/RWKV-LM/blob/main/RWKV-v2-RNN.png

为什么我必须写出这些TODO?因为我知道必须做好防御。

后续其它人去做这些内容,我说过其它人什么吗?没有。

接着,某些无道德的精致利己者,真就岁月史书,来反咬了?

还好我做了防御,否则就被他们咬了。

这么多年,这些无耻者用着RWKV最早在RNN LLM做的decay和shortconv设计,写各种“新架构”论文,从来不给RWKV credit,好意思?

详情见:https://zhuanlan.zhihu.com/p/1961165344078009752

这也无所谓,现在学术界就是这个道德水准。

但是倒过来反咬,滑天下之大稽。


最近,杨某某的小粉丝,护主心切,又开始虚空造牌:

这些小可爱,三天不打,上房揭瓦。

我literally lol,在人类历史上,还有比这更蠢的学术领域吗?

需要我写一篇【学术投机者杨某某的发家史】吗?

简述,杨某某是如何发家:

先拼凑出一个纯搞笑的GLA,毫无意义。谁敢说GLA有一丝创新,全世界人民都笑了。

于是,考古,拼Schmidhuber的Delta Net,不敢起新名,所以叫DeltaNet。

大家都知道,Schmidhuber特别好欺负。

于是,宣传时完全不提Schmidhuber,鸠占鹊巢计划大成功,俨然变身为RNN架构网红,欺世盗名。

Delta Net的真正论文:https://arxiv.org/abs/2102.11174

Delta Net而我在RWKV-7的发布介绍页,就已清楚写明Schmidhuber的贡献。

为什么我不会遮遮掩掩?因为与投机者不同,我有真正的创造力,正如我发布了全新的RWKV-8 ROSA。

我不需要偷credit,正如我的群从不封人,欢迎各路“间谍”。而投机者,每天战战兢兢,屡次在自己的群搞“大清洗”。

一言蔽之,所有“七代机”架构的核心源于Schmidhuber,外围和技巧源于RWKV系列。

Kimi和Qwen,如果你们有学术道德,请将DeltaNet的credit给Schmidhuber,而非为乱象推波助澜。


说人话:

Schmidhuber做了DeltaNet的初版,但设计粗糙,LLM性能差,因而默默无闻。

RWKV-7直接给出了DeltaNet的满血版,性能最佳。这对于纯RNN很重要,因此我能持续发布强纯RNN。

杨某某,先用DeltaNet拼RWKV的shortconv做了“DeltaNet”,性能捉急。

杨某某,再继续拼RWKV的decay(但缩水)做了“Gated DeltaNet”,好点,但仍与RWKV-7有显著差距(Qwen3-Next用的是这个,混合模型有attention分担,对于RNN的要求更低)。

Kimi把“Gated DeltaNet”的设计,往RWKV-7挪了一大步,缩小了与RWKV-7的差距,称为“Kimi Delta Attention”。

国内大厂都在遮遮掩掩。如果直接用RWKV-7,性能就是最好的。而且RWKV-7的训练非常稳定,经过验证。

但是,由于种种公司政治,即使我在年初主动找到国内各家大厂说,很愿意分享所有训练细节,你们可以在自己数据训练,我完全不接触你们的数据和训练,纯属双赢,国内大厂都会找各种借口推托。中厂倒是感兴趣,但受限于自身水平不敢试,或自身难保。

没事,下文可见,现在用RWKV的论文增长迅速。发论文不存在这些政治,什么架构的效果好,大家试过就知。


最近几年,我为了防止被恶意抄(各路用RWKV技巧做“新架构”的人,从来不给credit!所以我之前说,你们这个juan,乌烟瘴气的臭水沟,很好地代表了人类的道德水准),只在有其它人意识到某个事情的时候,才公布我的做法。

然后,就频繁被人反咬?

没事,RWKV8 ROSA,我就不藏那么久,直接公布,看你们怎么抄?

例如:RWKV7+ROSA用1M参数做40位加减法(纯端对端训练)

我注意到,苏某某已开始造势,竟然没直接喷ROSA,而是虚空造牌,开始胡扯:


在 RWKV.cn 可以看到,全球使用RWKV训练模型的论文已达146篇:

如果你想要最佳的RNN性能,RWKV-7是你的最佳选择。我们也会为您提供一切技术支持,技术QQ群325154699。

以及RWKV7-G0a3 13B已最新发布,最强纯RNN,无刷榜MMLU 76% (+CoT=82.5%), GSM8K 92.3%, MATH500 76%,稍后正式发布:

https://zhuanlan.zhihu.com/p/1967972688162165183

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV LLM RNN DeltaNet 学术道德 AI研究 Schmidhuber AI论文 AI创新
相关文章