2025-10-21 19:46 北京
通过视觉化输入实现高效的上下文扩展
我们提出了 Glyph 框架,探索了一条不同于现有范式的上下文扩展路径。
Glyph 通过视觉-文本压缩将长文本渲染为图像,使模型能够以视觉方式理解语义。通过 LLM 驱动的搜索算法,Glyph能够自动找到最高效的视觉渲染方案,从而以更少的 token 处理更长的上下文,突破了模型本身上下文长度的限制。
在长文本基准中,Glyph 在保持性能和当前领先的LLM相近的情况下,实现了约3-4倍的上下文压缩,同时带来数倍的推理和训练加速。
Glyph 展示了长上下文建模的新方向——通过视觉化输入实现高效的上下文扩展,为构建长文本大模型提供了新的思路。
动机
在长上下文任务(如文档理解、仓库级代码分析、多步推理)中,大模型往往需要处理数十万甚至上百万 token 的输入。
然而,直接扩展上下文窗口会带来巨大的资源消耗,这大大限制了“百万级上下文模型”的广泛应用。
为了突破这一瓶颈,我们提出了 Glyph ——一种全新的视觉上下文扩展范式。
不同于基于注意力结构的上下文扩展,Glyph 选择从输入层面重新思考问题:
方法
Glyph 的核心目标是让模型以“看”的方式理解超长文本。通过将文本渲染为图像,模型能够在有限的 token 数量下接收更丰富的上下文信息,实现高效的文本压缩。 整体框架包含三个主要阶段:
- 1. 持续预训练 我们首先将大规模长文本数据渲染为多种视觉风格,包括文档布局、网页结构、代码展示等形式,以模拟不同类型的真实长文本场景。 在此基础上,我们构建多种任务,例如 OCR 识别任务、图文交错建模任务与视觉补全任务,使模型能够同时学习文字的视觉形态与语义含义。 这一阶段的训练帮助模型建立起视觉与语言之间的跨模态语义对齐能力。2. LLM驱动渲染搜索 在视觉压缩过程中,渲染配置(如字体、分辨率、排版布局)直接影响模型的感知效果与任务性能。为了在压缩率与理解能力之间取得最优平衡,我们提出了一种由 大语言模型驱动的遗传搜索算法。在该框架中,我们在验证集上自动评估不同渲染方案的性能,由 LLM 分析其优劣并生成新的候选配置。通过多轮迭代,Glyph 能够逐步收敛到在语义保持与压缩效率间最优的渲染策略。3. 后训练阶段 在找到最优渲染配置后,我们对模型进行有监督微调(SFT)与强化学习优化(使用 GRPO 算法)。此外,我们引入 OCR 辅助任务,进一步强化模型的文字识别与细节理解能力。
实验结果
我们在多个长上下文基准上系统评估了Glyph的效果。
- 在 LongBench 与 MRCR 上,Glyph 实现了平均 3–4× 的输入压缩率,同时保持与 Qwen3-8B、GLM-4-9B-Chat-1M 等主流模型相当的精度。
- 相比文本基建模型,推理与训练速度分别提升 4× 和 2×,并且随着上下文变长,推理速度的优势也随之增强。
- 在极端压缩场景下(8×压缩比),Glyph 有潜力利用128k上下文长度处理百万级上下文任务。
- 在 MMLongBench-Doc 上,Glyph 在文档理解任务上显著优于原始视觉语言基线,展现了跨模态泛化能力。
QA
Q:Glyph 与现有的上下文扩展方法有什么不同?
A:传统方法通过修改模型架构(例如稀疏、线形注意力)或位置编码来延长上下文窗口,而 Glyph 从输入表示层进行压缩,通过视觉-文本压缩实现上下文扩展。值得注意的是,这两种方法并不冲突,有希望结合使用,将现在大模型的上下文扩展到新的长度,例如千万级别。
Q:不同渲染配置的影响有多大?
A:不同渲染参数(字体大小、间距、分辨率)会直接影响模型性能与压缩率,我们利用类似AlphaEvolve的方法找到最佳配置,渲染样例:
Q:Glyph 和 DeepSeek-OCR有何异同?
A:共同点:两者都从“视觉压缩”出发,利用视觉 token 承载更多的文本信息;
不同点:DeepSeek-OCR 聚焦于真实文档 OCR 任务,验证的是视觉压缩下的文字还原能力;而 Glyph 则将这一思想应用到了更广泛的通用长文本任务中,真正验证了利用视觉模型实现上下文扩展的可行性。
总结
Glyph 开启了视觉与文本融合的上下文扩展新范式。
通过三阶段训练,Glyph 在 3–4× 的文本 token 压缩 下依然保持强大的任务性能,同时显著提升训练与推理效率。
在极端压缩场景下,Glyph 甚至能够利用 128K 上下文视觉模型 处理 百万级 token 文本任务,展现出卓越的上下文扩展能力,为从百万级向千万级上下文的进一步突破奠定了基础。
