DEA注意力机制提升长上下文性能

RWKV元始智能 09月25日 18:01

DEA注意力机制提升长上下文性能

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型。它将长上下文性能提升到 Transformer 水平，通过极小化 KV 缓存（仅需 64 个值），显著降低显存占用，同时保持高效并行计算能力。实验表明，RWKV-7s 添加 DEA 后，随着上下文长度增加，loss 差值持续下降，证明其在处理长文本时表现更优。

🔹 DEA 是基于 RWKV-8 DeepEmbed 思路构建的注意力变体，核心特点是其极小的 KV 缓存，仅需 64 个值（32+32），远低于 MLA 的 576 个值，实现极致效率。

🔸 DEA 通过将 QKV 输出加到 RWKV-7 输出上，构建混合模型，适合并行计算，可在不同设备或异构计算中分别处理 QKV 和 RWKV-7 部分，提升长上下文处理能力。

📈 实验结果证明，RWKV-7s（集成 DeepEmbed 和 DEA）在处理长上下文时表现优于原版 RWKV-7。随着上下文长度增加，loss 差值持续扩大（从 -0.13 降至 -0.17），表明其更有效地利用了长前文信息，语言建模能力增强。

🎯 DEA 的设计目标是为混合模型（如 RWKV-7s）提供高效的长上下文处理能力，同时保持低显存占用，使其成为提升长文本处理性能的理想选择。

原创 Rocky Luo 2025-06-30 17:57 广东

DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型

5 月 27 日，我们公开了 RWKV-8 首个新特性 DeepEmbed：对端侧友好的稀疏设计，解决 MoE 显存占用。

今天，我们公开与其相关的另一个新特性：DeepEmbedAttention（DEA），这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型（例如后续的 RWKV-7s 混合模型），可将它们的长上下文性能提升到 Transformer 水准。

DEA 的结构定义例子：

# q: D => 256# k: D => 32, k_up: 32 => 256, k_emb: V => 256# v: D => 32, vup: 32 => D, v_emb: V => Dq = ln_q(q(x))k = ln_k(k_up(k(x)) * k_emb(idx))v = ln_v(tanh(v_up(v(x))) * v_emb(idx))

然后将 QKV 的输出加到 RWKV-7 的输出上。这适合并行计算，例如可在不同设备（或异构计算）计算 QKV 和 RWKV-7 部分。

这个注意力头的维度是 256，但由于 DEA 的

key

和

value

只需缓存 32 维，KV 总共只需缓存 64 个值（32+32）。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签