RWKV元始智能 09月25日 18:01
RNN适合大bsz
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文说明RNN真正适合的是大bsz。对于典型的L40-D5120的13B模型,LLM的解码是memory-bound,速度由存储读取量决定。模型参数量固定,各种架构在bsz=1时,纯RNN需ctx很长才有优势,但此时长文本性能堪忧。随着bsz升高,RWKV-7和7s的总生成速度会是典型MLA的5-10倍,会是典型GQA的15-30倍。RWKV-7和RWKV-7s对于大bsz云端部署非常适合,端侧也有大bsz应用,如多agent并行工作,大test-time scaling,并行解码方法等。

💡RNN在LLM解码中速度由存储读取量决定,模型参数量固定,纯RNN在bsz=1时需长ctx才有优势,但长文本性能堪忧。

🚀随着bsz升高,RWKV-7和7s的总生成速度远超典型MLA和GQA,体现小state优势,适合大bsz云端部署。

🌐端侧也有大bsz应用,如多agent并行工作、大test-time scaling、并行解码方法,RNN的固定state大小易做dynamic batching。

🔗未来模型可自行学会各种拆解和合并,提高多文件大型代码项目生成效率,比扩散LLM更快更合理。

🤖多agent并行可同时做各种任务、处理数据、扮演角色、使用不同state,总效率高,适合大bsz端侧部署。

PENG Bo 2025-08-27 14:31 广东

本文旨在说明,实际上,RNN真正适合的是大bsz。

💡Tips

转自知乎用户 PENG Bo,原文链接:

https://zhuanlan.zhihu.com/p/1943820341953697499

一种常见误解是:RNN的速度&显存优势只在长ctx才明显,但纯RNN又难以精确记忆长ctx,因此RNN似乎意义不明?

本文旨在说明,实际上,RNN真正适合的是大bsz。

我们考虑典型的L40-D5120的13B模型。不妨令权重和kv/state都是8bit,方便说明。

首先,LLM的解码是memory-bound,速度几乎完全由存储读取量决定:

存储读取量 = 模型参数量 + KV cache(对于RNN是state)

模型参数量是固定的,所有13B模型都是13B。

那么,各种架构在各种bsz+ctx组合下的存储读取量,如图:

在bsz=1时,面对MLA这种省显存attention,纯RNN需ctx很长才有优势,但此时纯RNN的长文本性能堪忧,的确意义不明。

而且此时RWKV-7这种headsz=64的设计,和Mamba2这类靠headsz=256补性能的设计,也没有区别。

但随着bsz升高,事情就变得有趣了。在现实硬件和现实场景(ctx=10k),同样参数量,RWKV-7和7s的总生成速度(throughput)会是典型MLA(例如DeepSeek)的5-10倍,会是典型GQA(例如Qwen3)的15-30倍。

这时state越小越好,于是RWKV-7的小state优势得以体现。目前社区已逐渐发现RWKV-7在大bsz的throughput极强,一张卡可以serve特别多用户。

同理,在RWKV-7s混合模型的DEA中(见 RWKV-8 系列之 DeepEmbedAttention:精简 KV 缓存,尤其适合混合模型(RWKV-7s)),我设计了尽可能小的KV cache,是MLA的九分之一。

因此,RWKV-7和RWKV-7s对于大bsz云端部署非常适合。

但我认为,未来的端侧也有大bsz,因为多agent并行工作的总效率高太多,可以并行做各种任务,并行处理各种数据,并行扮演不同角色,并行使用不同state,等等。

而且,大bsz还适合大test-time scaling,适合各种并行解码方法。由于RNN的state大小固定,也很容易做dynamic batching。

所以,端侧RNN的正确用法是开bsz=1000扫荡(这是现实的,此时RWKV-7 13B即使在fp16的权重+state也只占52G显存,解码算术强度约400,适合单H100;若bsz=100则算术强度约90),使用1000个worker,动态拆解任务,动态合并结果,就像在博弈树同时展开1000个节点,同时做1000个rollout。

举例,怎么一键生成多文件的大型代码项目?快速拆成多个大模块,并行将所有大模块同时拆成多个小模块,并行给多个小模块同时写多个函数,再并行开一堆worker搜索和阅读资料,检查和修正代码等等。这比现在的所谓扩散LLM更快更合理。后续如何让模型自行学会各种拆解和合并,会是值得研究的课题。

关注我们:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RNN 大bsz RWKV-7 LLM解码 并行计算
相关文章