原创 PENG Bo 2025-11-08 14:46 广东
39564个参数(L2-W32)达到99.8%数位准确率
💡Tips转自知乎用户 PENG Bo,原文链接:https://zhuanlan.zhihu.com/p/1970228984378791304
前情:
RWKV7+ROSA用1M参数做40位加减法(纯端对端训练)
然后有Discord群友问,是否可以颠倒输入。我试了试,RWKV7+ROSA只需39564个参数(2层,32宽度),就能颠倒1-60位数字输入达到99.8%数位准确率:
RWKV7+ROSA(黄)与纯RWKV7(蓝)的loss对比(虽然RWKV7最终loss只高一点,测试准确率只有98.9%,也就是,错误率高几倍):
Demo代码,是这里的251105_reverse_run.py:
https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v8最近洗数据太忙。稍后我先试乘法,再试小语言模型。
现已有多个第三方ROSA项目,欢迎大家讨论交流(QQ群325154699,Discord群在https://RWKV.com 主页):
https://github.com/zyaaa-ux/ROSA-Tuninghttps://github.com/wjie98/rosa_softhttps://github.com/bcml-ai/rosa-plushttps://github.com/x-0D/RASPROSA的训练是极其有趣的问题,我在此投入了许多技巧。在各家承认RWKV是全世界第一个做出新型RNN LLM的关键组合(decay+shortconv,这个组合让各种从前不work的方法变成work,各家都在用,都不给RWKV credit)之后,我才可能开源ROSA的训练代码。