GLM大模型 10月22日 19:56
Glyph框架:通过视觉化输入实现高效长文本上下文扩展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Glyph框架提出了一种创新的长文本上下文扩展方法,通过将长文本视觉化渲染成图像,利用视觉-文本压缩技术,使模型能够以更少的 token 处理更长的上下文。该框架包含持续预训练、LLM驱动渲染搜索以及后训练三个阶段,旨在优化渲染配置以在压缩率和理解能力之间取得平衡。实验表明,Glyph在保持性能的同时,实现了3-4倍的上下文压缩,并带来了数倍的推理和训练加速,为构建大规模长文本模型提供了新思路。

🎨 **视觉化上下文扩展新范式**:Glyph框架突破了传统基于注意力机制的上下文扩展方法,提出将长文本通过视觉化渲染成图像,再由视觉-语言模型(VLM)进行理解。这种“看”的方式使得模型能够在有限的 token 数量下接收更丰富的上下文信息,实现高效的文本压缩,为处理数十万甚至上百万 token 的长文本任务提供了新的解决方案。

🔍 **LLM驱动的渲染搜索优化**:为了在视觉压缩过程中找到最佳的渲染配置(如字体、分辨率、排版布局),Glyph框架引入了一个由大语言模型(LLM)驱动的遗传搜索算法。该算法能在验证集上自动评估不同渲染方案的性能,并由LLM分析生成新的候选配置,通过多轮迭代收敛到在语义保持和压缩效率之间最优的渲染策略,确保模型能有效理解视觉化后的文本信息。

🚀 **显著的性能与效率提升**:Glyph框架在多个长上下文基准测试中表现出色,实现了平均3-4倍的输入压缩率,同时保持与主流LLM相当的精度。更重要的是,推理和训练速度分别提升了4倍和2倍,并且随着上下文长度的增加,推理速度的优势愈发明显。在极端压缩场景下,Glyph甚至具备利用128k上下文长度处理百万级上下文任务的潜力。

🧩 **多阶段训练与OCR辅助**:Glyph框架采用持续预训练、LLM驱动渲染搜索和后训练三个阶段进行模型训练。在持续预训练阶段,模型学习模拟不同类型的真实长文本场景,并建立跨模态语义对齐能力。在后训练阶段,引入了OCR辅助任务,进一步强化了模型对文字的识别和细节理解能力,确保了视觉化后的文本信息能够被准确捕捉和利用。

2025-10-21 19:46 北京

通过视觉化输入实现高效的上下文扩展

我们提出了 Glyph 框架,探索了一条不同于现有范式的上下文扩展路径。

Glyph 通过视觉-文本压缩将长文本渲染为图像,使模型能够以视觉方式理解语义。通过 LLM 驱动的搜索算法,Glyph能够自动找到最高效的视觉渲染方案,从而以更少的 token 处理更长的上下文,突破了模型本身上下文长度的限制。

在长文本基准中,Glyph 在保持性能和当前领先的LLM相近的情况下,实现了约3-4倍的上下文压缩,同时带来数倍的推理和训练加速。

Glyph 展示了长上下文建模的新方向——通过视觉化输入实现高效的上下文扩展,为构建长文本大模型提供了新的思路。

动机

在长上下文任务(如文档理解、仓库级代码分析、多步推理)中,大模型往往需要处理数十万甚至上百万 token 的输入。

然而,直接扩展上下文窗口会带来巨大的资源消耗,这大大限制了“百万级上下文模型”的广泛应用。

为了突破这一瓶颈,我们提出了 Glyph ——一种全新的视觉上下文扩展范式。 

不同于基于注意力结构的上下文扩展,Glyph 选择从输入层面重新思考问题

将文本渲染为图像,通过视觉-语言模型(VLM)读取与理解,从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。

方法

Glyph 的核心目标是让模型以“看”的方式理解超长文本。通过将文本渲染为图像,模型能够在有限的 token 数量下接收更丰富的上下文信息,实现高效的文本压缩。 整体框架包含三个主要阶段:

    1. 持续预训练 我们首先将大规模长文本数据渲染为多种视觉风格,包括文档布局、网页结构、代码展示等形式,以模拟不同类型的真实长文本场景。 在此基础上,我们构建多种任务,例如 OCR 识别任务、图文交错建模任务与视觉补全任务,使模型能够同时学习文字的视觉形态与语义含义。 这一阶段的训练帮助模型建立起视觉与语言之间的跨模态语义对齐能力。

    2. LLM驱动渲染搜索 在视觉压缩过程中,渲染配置(如字体、分辨率、排版布局)直接影响模型的感知效果与任务性能。为了在压缩率与理解能力之间取得最优平衡,我们提出了一种由 大语言模型驱动的遗传搜索算法。在该框架中,我们在验证集上自动评估不同渲染方案的性能,由 LLM 分析其优劣并生成新的候选配置。通过多轮迭代,Glyph 能够逐步收敛到在语义保持与压缩效率间最优的渲染策略。

    3. 后训练阶段 在找到最优渲染配置后,我们对模型进行有监督微调(SFT)与强化学习优化(使用 GRPO 算法)。此外,我们引入 OCR 辅助任务,进一步强化模型的文字识别与细节理解能力。

实验结果

我们在多个长上下文基准上系统评估了Glyph的效果。

QA

Q:Glyph 与现有的上下文扩展方法有什么不同?

A:传统方法通过修改模型架构(例如稀疏、线形注意力)或位置编码来延长上下文窗口,而 Glyph 从输入表示层进行压缩,通过视觉-文本压缩实现上下文扩展。值得注意的是,这两种方法并不冲突,有希望结合使用,将现在大模型的上下文扩展到新的长度,例如千万级别。

Q:不同渲染配置的影响有多大?

A:不同渲染参数(字体大小、间距、分辨率)会直接影响模型性能与压缩率,我们利用类似AlphaEvolve的方法找到最佳配置,渲染样例:

Q:Glyph 和 DeepSeek-OCR有何异同?

A:共同点两者都从“视觉压缩”出发,利用视觉 token 承载更多的文本信息;

不同点DeepSeek-OCR 聚焦于真实文档 OCR 任务,验证的是视觉压缩下的文字还原能力;而 Glyph 则将这一思想应用到了更广泛的通用长文本任务中,真正验证了利用视觉模型实现上下文扩展的可行性。

总结

Glyph 开启了视觉与文本融合的上下文扩展新范式。

通过三阶段训练,Glyph 在 3–4× 的文本 token 压缩 下依然保持强大的任务性能,同时显著提升训练与推理效率。

在极端压缩场景下,Glyph 甚至能够利用 128K 上下文视觉模型 处理 百万级 token 文本任务,展现出卓越的上下文扩展能力,为从百万级千万级上下文的进一步突破奠定了基础。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Glyph 上下文扩展 长文本处理 视觉-文本压缩 大模型 AI Context Expansion Long Text Processing Visual-Text Compression Large Models AI
相关文章