DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型。它将长上下文性能提升到 Transformer 水平,通过极小化 KV 缓存(仅需 64 个值),显著降低显存占用,同时保持高效并行计算能力。实验表明,RWKV-7s 添加 DEA 后,随着上下文长度增加,loss 差值持续下降,证明其在处理长文本时表现更优。
🔹 DEA 是基于 RWKV-8 DeepEmbed 思路构建的注意力变体,核心特点是其极小的 KV 缓存,仅需 64 个值(32+32),远低于 MLA 的 576 个值,实现极致效率。
🔸 DEA 通过将 QKV 输出加到 RWKV-7 输出上,构建混合模型,适合并行计算,可在不同设备或异构计算中分别处理 QKV 和 RWKV-7 部分,提升长上下文处理能力。
📈 实验结果证明,RWKV-7s(集成 DeepEmbed 和 DEA)在处理长上下文时表现优于原版 RWKV-7。随着上下文长度增加,loss 差值持续扩大(从 -0.13 降至 -0.17),表明其更有效地利用了长前文信息,语言建模能力增强。
🎯 DEA 的设计目标是为混合模型(如 RWKV-7s)提供高效的长上下文处理能力,同时保持低显存占用,使其成为提升长文本处理性能的理想选择。
原创 Rocky Luo 2025-06-30 17:57 广东
DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型

5 月 27 日,我们公开了 RWKV-8 首个新特性 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用。今天,我们公开与其相关的另一个新特性:DeepEmbedAttention(DEA),这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型(例如后续的 RWKV-7s 混合模型),可将它们的长上下文性能提升到 Transformer 水准。DEA 的结构定义例子:# q: D => 256# k: D => 32, k_up: 32 => 256, k_emb: V => 256# v: D => 32, vup: 32 => D, v_emb: V => Dq = ln_q(q(x))k = ln_k(k_up(k(x)) * k_emb(idx))v = ln_v(tanh(v_up(v(x))) * v_emb(idx))
然后将 QKV 的输出加到 RWKV-7 的输出上。这适合并行计算,例如可在不同设备(或异构计算)计算 QKV 和 RWKV-7 部分。这个注意力头的维度是 256,但由于 DEA 的 key
和 value
只需缓存 32 维,KV 总共只需缓存 64 个值(32+32)。