RWKV元始智能 11月08日 20:02
RWKV模型以更少参数实现高位数的数字颠倒准确率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

知乎用户PENG Bo分享了RWKV7+ROSA模型在数字颠倒任务上的突破性进展。通过优化,仅使用39564个参数(2层,32宽度),该模型便能达到99.8%的数位准确率来颠倒1-60位的数字输入。相较于纯RWKV7模型,RWKV7+ROSA在保持极低参数量的同时,显著提升了准确率,错误率降低了数倍。这一成果展示了RWKV架构结合ROSA训练方法的强大潜力,并预示着模型在处理复杂序列任务上的进一步优化空间。

💡RWKV7+ROSA模型在数字颠倒任务上取得了显著进展,仅需39564个参数(2层,32宽度)即可达到99.8%的数位准确率,颠倒范围覆盖1-60位数字。

📊与纯RWKV7模型相比,RWKV7+ROSA在参数量大幅减少的情况下,准确率更高。纯RWKV7模型虽然最终loss略高,但测试准确率仅为98.9%,错误率是RWKV7+ROSA的数倍。

🚀该研究成果展示了RWKV架构与ROSA训练方法结合的强大能力,能够以极高的效率和准确性处理序列数据,为未来更复杂的模型优化提供了实践基础和思路。

💬作者提到,ROSA的训练涉及许多技巧,并计划在后续尝试乘法任务和小语言模型。同时,已有多个第三方ROSA项目,欢迎社区成员参与讨论和交流。

原创 PENG Bo 2025-11-08 14:46 广东

39564个参数(L2-W32)达到99.8%数位准确率

💡Tips

转自知乎用户 PENG Bo,原文链接:https://zhuanlan.zhihu.com/p/1970228984378791304

前情:

RWKV7+ROSA用1M参数做40位加减法(纯端对端训练)

然后有Discord群友问,是否可以颠倒输入。我试了试,RWKV7+ROSA只需39564个参数(2层,32宽度),就能颠倒1-60位数字输入达到99.8%数位准确率:

RWKV7+ROSA(黄)与纯RWKV7(蓝)的loss对比(虽然RWKV7最终loss只高一点,测试准确率只有98.9%,也就是,错误率高几倍):

Demo代码,是这里的251105_reverse_run.py

https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v8

最近洗数据太忙。稍后我先试乘法,再试小语言模型。

现已有多个第三方ROSA项目,欢迎大家讨论交流(QQ群325154699,Discord群在https://RWKV.com 主页):

https://github.com/zyaaa-ux/ROSA-Tuning

https://github.com/wjie98/rosa_soft

https://github.com/bcml-ai/rosa-plus

https://github.com/x-0D/RASP

ROSA的训练是极其有趣的问题,我在此投入了许多技巧。

在各家承认RWKV是全世界第一个做出新型RNN LLM的关键组合(decay+shortconv,这个组合让各种从前不work的方法变成work,各家都在用,都不给RWKV credit)之后,我才可能开源ROSA的训练代码。

关注我们:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV ROSA 人工智能 深度学习 模型优化 序列处理 AI Machine Learning LLM
相关文章