理解大模型位置编码的外推性挑战

“外推性”（Extrapolation）是贯穿整个位置编码演进史的核心暗线，也是区分不同方案优劣的“试金石”。

上下文的“悬崖”——解构 LLM 位置编码的外推性危机

为什么在 4k 上训练的模型，跑到 4097 就会崩溃？

1. 什么是外推性 (Extrapolation)？

在 LLM 的上下文中，“外推性”指的是一个模型在训练期间未见过的序列长度上，其表现（如 Perplexity）是否能保持稳定。

插值 (Interpolation)：

N

之内

[0, N-1]

外推 (Extrapolation)：

N

之外

M > N

“外推性差”意味着模型一旦超出训练长度，其性能就会显著下降甚至崩溃。这个性能“悬崖”是所有 LLM 架构师都必须面对的核心挑战之一。

为什么会这样？答案几乎总是指向同一个“罪魁祸首”：位置编码 (PE) 。模型本身（Attention 机制）是置换不变的，它对“长度”的唯一感知就来自于 PE。当 PE 在 $N$ 之外“失效”时，模型也就“崩溃”了。

2. 失败的模式：不同 PE 为何外推性差？

不同 PE 方案的外推性失败模式（Failure Mode）是不同的，理解这一点至关重要。

案例一：绝对位置编码 (APE) 的“灾难性”外推

技术（如原始 Transformer）： APE 是一种“位置查找表”。无论是可学习的嵌入，还是固定的 $\sin/\cos$ 函数，它本质上都是 $PE(pos)$ 。

\mathbf{x}' = \text{TokenEmbedding}(\mathbf{x}) + \text{APE}(pos)

为何外推性差？

这是最严重的一种失败，是一种 “分布外”(Out-of-Distribution, OOD) 危机。

可学习的 APE：

[0, 4095]

pos=4096

从未被训练过的、完全随机的

PE(4096)

Q, K, V

$\sin/\cos$ APE：

\sin/\cos

从未见过

PE(4096)

\sin/\cos

Q,K,V

没有学会

结果： 性能立即崩溃，Perplexity 瞬间飙升。这就是一个“悬崖”（Cliff）。

案例二：RoPE (旋转位置编码) 的“非完美”外推

技术： RoPE 是一种相对位置编码，通过绝对位置（旋转）来实现。

f(\mathbf{q}, m) = \mathbf{q} e^{im\theta_i}

为何外推性差？

RoPE 的失败要微妙得多，它不是“垃圾输入”，而是“数学失效”。

周期性混淆 (Aliasing)：

\sin(m\theta)

\theta

pos=4096

pos=0

完全相同

相对距离“失效”：

\langle \tilde{q}_m, \tilde{k}_n \rangle

⟩

(m-n)

(m-n)

[-4095, 4095]

(m-n) = 6000

不知道这个距离“有多远”

e^{i(6000)\theta}

结果： 性能不会像 APE 那样立即崩溃，但会因为位置混淆和无法理解超长相对距离而性能快速下降。

3. 特例：ALiBi 为何外推性好？

要理解“差”，我们必须看什么是“好”。ALiBi 是为外推性而生的。

技术： ALiBi (Attention with Linear Biases)

机制： ALiBi 不在 $Q, K$ 上操作。它在 $QK^T$ 的 Logits 上直接添加一个线性的“惩罚”偏置：

A_{i,j} = \mathbf{q}_i^T \mathbf{k}_j + m \cdot (i-j)

为何外推性好？

ALiBi 的机制是一个极其简单、连续且非周期性的归纳偏置 (Inductive Bias)：“距离越远，惩罚越多”。

[0, 4095]

pos=6000

(i-j)=6000

不需要任何额外信息

完美地

m \cdot 6000

ALiBi 根本没有“OOD”问题，因为它学到的规则是数学上可无限外推的。

4. 解决之道：我们如何“欺骗”外推？

既然 RoPE（目前 SOTA 模型的基础）的外推性非完美，而 ALiBi 又与 RoPE 的架构（如 Llama）不兼容，我们如何实现 128k 的上下文？

答案是：我们不解决外推问题，我们“规避”它。

我们不再“外推”（Extrapolate），而是想办法“插值”（Interpolate）。这就是 位置插值 (Position Interpolation, PI) 及其后续演进（NTK, YaRN）的核心思想。

步骤 1：天真的插值 (PI)

思想：

操作：

所有

pos \in [0, 8191]

线性压缩

[0, 4095]

pos=8191

pos=4095

问题：

\theta_i

高频维度

步骤 2：智能的插值 (NTK-Aware / YaRN)

NTK-Aware 的发现： PI 的方向是对的（“压缩回插值”），但方法错了。我们不应该压缩高频维度（它们负责局部细节，应该保持不变），我们只应该压缩低频维度（它们负责全局距离）。

YaRN 的发现： NTK 解决了频率问题，但它（和 PI）都引入了新问题：插值操作改变了 $QK^T$ 点积的幅度，导致 Softmax 分布熵变低（即“过度自信”）。

YaRN 的解决方案：

频率

温度 $t$

\text{softmax}(QK^T/t)

校准幅度

结论：外推性的“圣杯”

“外推性差”是位置编码的阿喀琉斯之踵。我们的演进路线清晰地表明了这一点：

APE

崩溃

ALiBi

极佳

RoPE

非完美

当前的 SOTA 方案（Llama + YaRN）选择了一条务实的路线：我们采用架构最优的 RoPE，然后用“智能插值” (YaRN) 的方式来规避其外推性短板。

真正的“圣杯”——一个既具备 ALiBi 连续外推特性，又具备 RoPE 架构解耦优点的 PE 方案——可能仍在等待被发现。

上下文的“悬崖”——解构 LLM 位置编码的外推性危机

1. 什么是外推性 (Extrapolation)？

2. 失败的模式：不同 PE 为何外推性差？

案例一：绝对位置编码 (APE) 的“灾难性”外推

案例二：RoPE (旋转位置编码) 的“非完美”外推

3. 特例：ALiBi 为何外推性好？

4. 解决之道：我们如何“欺骗”外推？

结论：外推性的“圣杯”

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签