本文介绍了一种突破性的AI模型方法,它赋予了RNN(循环神经网络)学习使用外部记忆和工具的能力,如同人类翻阅书籍般进行信息检索和处理。作者PENG Bo指出,此前探索的多种RNN升级路线因效率和硬件兼容性问题被否决。新近发现的通用、高效、端对端的方法,名为RWKV-8(或RWKV-∞),摆脱了Transformer模型中常见的Attention机制和KV Cache,有效解决了状态增长问题。其核心亮点在于,一个仅100M参数的RNN模型即可准确处理包含百万级上下文(ctx 1M)的复杂任务,甚至能进行多跳推理。这种“诡谲”的方法被认为是RNN走向通用智能的最佳方案,预示着Transformer和RNN之外的第三条道路,并可能引领AI走向非神经网络的未来范式。
💡 RWKV-8(RWKV-∞)的出现标志着AI模型发展的新方向,它融合了RNN的序列处理能力与外部记忆/工具的检索能力,旨在解决传统RNN和Transformer的局限性。
🚀 该方法实现了高效且端对端的模型训练和推理,尤其显著的特点是模型规模(100M参数)与处理复杂长上下文(ctx 1M)任务的能力之间的巨大突破,并且支持多跳推理。
🧠 RWKV-8通过摒弃Attention机制和KV Cache,有效解决了模型状态增长问题,使得模型在处理长序列时更加高效,并能以更小的模型规模实现强大的性能。
🌟 作者认为,RNN学会利用外部记忆和工具是实现通用人工智能的最佳方案,RWKV-8的出现为这条路径提供了强有力的实证,并预示着AI模型可能走向非神经网络的范式。
原创 PENG Bo 2025-10-05 13:14 广东
如果 RNN 学会外部记忆/工具,学会自己翻书等等,就是目前的最佳方案。
现在,PENG Bo 已经找到了通用、高效、端对端的方法。

💡Tips转自知乎用户 PENG Bo,原文链接:https://zhuanlan.zhihu.com/p/1958127061811046073
本篇接前篇:理解LLM系列:升级RNN的常见路线在前篇,我写了很多路线,它们都是被否决的路线:时间和空间效率不够,不适合高并发。我还有一些更特殊的设计,但是,又会遇到另一个问题:是否能在现有 GPU 硬件高效训练和推理。我最近得到了正确的方法。下图用于以后的零知识证明,因此目前不会解释是什么图。
本方法的特点:一、无 attention。无 KV cache。无 state 增长。二、100M RNN 模型就能准确解决复杂的 ctx 1M 任务,包括 multihop 推理。三、方法诡谲。可以这样表述:我一直说,如果 RNN 学会外部记忆/工具,学会自己翻书等等,就是目前的最佳方案。现在,我已经找到了通用、高效、端对端的方法。RWKV-8 可以称为 RWKV-∞,它将开启 transformer 和 RNN 之外的第三条路,并将逐渐通往非神经网络的范式。 阅读原文
跳转微信打开