量子位 09月26日 18:26
SEAL框架提升长文档检索能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI在理解HTML、Markdown等结构化长文档时常遇到挑战。SEAL团队提出的全新对比学习框架,通过结构感知和元素对齐,显著提升了模型对长文档的理解能力。该框架将文档的宏观结构和微观语义融入统一的Embedding空间,在BGE-M3模型上将MRR@10指标从73.96%提升至77.84%,并在实际A/B测试中得到验证。同时,团队开源了包含万级字数长文档及结构标注的新数据集StructDocRetrieval,为长文档检索研究提供了新基准,预示着其在企业知识库、法律科技等领域的广阔应用前景。

📚 **SEAL框架提升长文档结构化理解**:SEAL(Structure and Element Aware Learning)是一个创新的对比学习框架,旨在解决AI模型在理解HTML、Markdown等具有复杂层级结构的文档时遇到的“结构性失明”问题。它通过将文档的宏观层级结构和微观元素语义融合到统一的Embedding空间,显著增强了预训练语言模型对结构化数据的理解和表示能力,告别了将长文档视为无差别纯文本的局限。

💡 **双重训练策略优化模型性能**:SEAL框架通过结构感知学习(SAL)和元素感知对齐(EAL)两种策略对Embedding模型进行“辅导”。SAL让模型学习文档的内在“骨架”,理解不同部分的逻辑功能,即使去除结构标签也能区分标题、段落等。EAL通过Mask机制,促使模型更深入地理解每个文本片段的语义角色及其上下文作用,从而提升对细节的把握和局部元素的精准对齐。

🚀 **显著的检索性能提升与实际验证**:SEAL框架在BGE-M3模型上的应用带来了显著的检索能力提升,衡量检索排序质量的关键指标MRR@10从73.96%提高到77.84%。这一改进不仅体现在学术评估上,还在真实的线上A/B测试中得到了有效验证,证明了该方法在实际应用场景中的价值。

🗂️ **全新长文档数据集开源**:为推动长文档检索研究,SEAL团队发布了StructDocRetrieval数据集。该数据集包含大量带有结构标注的万词级别长文档,其词数远超现有主流短文本数据集,并采用HTML格式表示,蕴含丰富的结构语义。这一资源为社区评估和开发面向长文档的检索模型提供了宝贵的Benchmark。

关注前沿科技 2025-09-25 19:39 北京

还开源了万字长文档数据集

SEAL 团队 投稿量子位 | 公众号 QbitAI

AI读不懂HTML、Markdown长文档的标题和结构,找信息总踩坑?

解决方案来了——

SEAL全新对比学习框架通过带结构感知+元素对齐,让模型更懂长文。

该方法创新性地将文档的宏观层级结构微观元素语义同时融入到统一的Embedding空间中,显著增强了预训练语言模型对结构化数据的理解和表示能力。

在BGE-M3模型上将MRR@10(信息检索能力评估集)指标从73.96%提升到77.84%,并在真实的线上A/B测试中验证了其有效性。

团队不仅提升了长文档检索准确率,还开源了万级字数长文档数据集。

下面具体来看。

对Embedding模型进行的两项专门“辅导”

结构化长文档检索中的常见挑战

在日常工作和学习中,我们常常需要从篇幅浩繁的文档中寻找特定信息,例如技术手册、法律文书或研究报告。面对这些结构复杂的长文本,即便是先进的Embedding模型,也可能在信息检索时表现不佳。

一个关键原因是,现有方法在处理结构化长文档时,大多将其视为一长串无差别的纯文本,忽略了标题、段落、列表等固有的结构信息。

这种对文档层次脉络的“视而不见”,可以称之为结构性失明(Structural Blindness),它限制了Embedding模型对文档深层语义的理解能力。

针对这一挑战,团队提出了名为SEAL (Structure and Element Aware Learning) 的对比学习框架,尝试让Embedding模型更好地理解和利用文档的结构信息。

核心解读:SEAL框架的设计思路

该研究旨在解决长文档检索中的两个具体问题:

SEAL框架为此设计了两种相辅相成的训练策略。可以将其理解为对Embedding模型进行的两项专门“辅导”。

结构感知学习(SAL)尝试理解文档的“骨架”

传统的Embedding模型在读取HTML等格式的文档时,往往会剥离等结构标签。SAL的核心思路则有所不同。

它在训练时会向模型同时展示一份文档的两个版本:一个保留了结构标签,另一个则去除了标签。

通过对比学习的任务,模型被鼓励去发现,即使没有明确的标签,某些文本片段(如标题)的内容和位置也蕴含着其结构功能。通过这种方式,模型能够逐步学习到文档的内在”骨架”,区分不同部分的逻辑功能。

元素感知对齐(EAL)关注局部元素的语义角色

为了进一步提升模型对细节的把握,EAL策略引入了一种基于元素(如一个标题或一个段落)的Mask机制。在训练中会按照固定比例随机Mask文档中的一小部分元素,然后要求模型判断这份信息不完整的文档是否与给定的Query相关。

为了完成任务,模型必须更依赖文本内容本身以及周围未被遮盖的元素来推断文档的整体相关性。这个过程促使模型更深入地理解每个文本片段的语义角色及其在上下文中的作用。

实验结果表明,这两种训练策略的结合能够带来积极效果。

在BGE-M3模型上的测试显示,应用SEAL框架后,衡量检索排序质量的关键指标MRR@10从73.96%提升至77.84%。

这一数据表明,模型在将更相关的结果排在靠前位置的能力上有所增强。同时,线上A/B测试的结果也初步显示了该方法在实际应用场景中的积极影响。

开源万词级文档数据集

同时,该团队还发布了一个名为StructDocRetrieval的新数据集,其中包含带有结构标注的万词级别长文档。

该数据集的文档词数远超MS MARCO等典型短数据集(MS MARCO大多文档不到700字,最长1670字 ),填补了该领域的数据空白。

并且,它利用HTML格式来表示文档,包含了丰富的结构语义标注。

StructDocRetrieval的一个数据样例

这个资源的公开,为社区评估和开发面向长文档的检索模型提供了一个新的Benchmark。

总的来说,通过SEAL方法这种对结构信息的精细理解,不仅能为RAG等下游任务提供更可靠信息来源(如助力AI助手精准定位技术文档答案),也在企业知识库、法律科技等专业领域展现出广阔应用前景。

感兴趣的朋友可以到原文查看更多内容~

论文地址:https://arxiv.org/abs/2508.20778

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SEAL 长文档检索 AI 结构感知 对比学习 自然语言处理 信息检索 StructDocRetrieval Long Document Retrieval Structure-Aware Learning Contrastive Learning NLP Information Retrieval
相关文章