MMRAG-DocQA：解决长文档多模态问答的挑战

PaperAgent 09月24日 19:06

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

多模态长文档视觉问答（M-L-DocQA）要求系统处理包含文本、表格、图表和图像的PDF，并能跨页、跨模态地融合信息生成答案。当前主要有两种技术路线：一是基于大视觉-语言模型（LVLM）的端到端方法，但存在上下文长度限制和幻觉问题；二是检索增强生成（RAG）方法，但存在模态割裂、跨页碎片化和证据粒度单一等缺点。MMRAG-DocQA旨在解决这些问题，通过“分层索引 + 多粒度检索”策略，引入扁平化页内索引和拓扑跨页索引，同时建模同页异模态相关性与跨页远距离依赖，并采用页级父页检索和文档级摘要检索，实现粗细粒度证据互补，从而提升长文档多模态问答的准确性和可验证性。

📚 **多模态长文档问答的挑战与现有技术困境**：M-L-DocQA任务面临处理长达数十页、包含多种模态（文本、表格、图表、图像）的PDF文档，并需融合跨页、跨模态信息生成答案。当前技术路线存在两大类：一是LVLM直接端到端，但受限于上下文长度，长文档易信息丢失且幻觉率高；二是RAG方法，虽然可扩展性强，但存在模态割裂（文本与图像信息割裂）、跨页语义关联弱（以单页或单段为粒度）以及证据粒度单一（仅段落或整图）等问题。

💡 **MMRAG-DocQA的创新方案：分层索引与多粒度检索**：为解决上述问题，MMRAG-DocQA首次提出将“分层索引”与“多粒度检索”引入多模态长文档问答。通过构建“扁平化页内索引”来连接同一页内的文本与视觉信息，以及“拓扑跨页索引”来建模跨页的长距离语义依赖。这种结构能够同时处理“同页异模态相关性”和“跨页远距离依赖”。

🔍 **多粒度检索策略：页级父页与文档级摘要**：MMRAG-DocQA设计了两种互补的检索策略：页级父页检索（Modality Connection）用于连接文本与同页视觉信息，通过文本段召回相关图像；文档级摘要检索（Long-distance Reasoning）则利用拓扑索引，召回跨多页聚合的宏观语义摘要，以支持需要多跳推理的任务。这两种策略结合，实现了对不同粒度信息的有效利用。

⚙️ **分层索引构造与证据融合**：具体而言，分层索引包括扁平化页内索引（将文本按块编码，关联父页）和拓扑跨页索引（将小文本块聚类并生成多层级摘要节点）。最终，将通过多粒度检索得到的证据（包括视觉重描述和宏观摘要）与原文拼接，送入LLM进行答案生成，并采用CoT提示模板引导模型进行逐步分析、推理并输出最终答案及类型。

CourseAI 2025-09-24 12:08 湖北

多模态长文档视觉问答（Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA）要求系统在给定一份可能长达数十页，包含：文本、表格、图表、图像与版式元素的 PDF。自动定位并融合跨页、跨模态的证据，最终生成自然语言答案。

这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。深入接触过RAG的读者们，想必都明白其中的技术难点。

当前的技术路线与困境

目前基本上就两条技术路线1、大视觉-语言模型直接端到端（LVLM-based）代表工作：GPT-4V、Qwen-VL、InternLM-XComposer2-4KHD 等。优点：无需显式检索，可一次性读入整图或整 PDF。缺点：

上下文长度受限，>100 页 PDF 必须滑动窗口或降采样，导致信息丢失；

幻觉严重，在多跳数值推理上错误率极高；

黑箱推理，难以给出可验证的证据链。

2、检索增强生成（RAG-based）代表工作：ColBERTv2、M3DocRAG、VisRAG 等。优点：可扩展至任意页数，显式返回证据，降低幻觉。缺点：

模态割裂——文本检索器只看 OCR，图像检索器只看截图，二者得分空间不可比，导致“图文不能互通”；

跨页碎片化——现有方法以单页或单段为检索粒度，无法建模“页与页之间的语义远距离依赖”；

证据粒度单一——要么只召回段落，要么只召回整图，缺乏“页级父页 + 文档级摘要”的多层次证据。

MMRAG-DocQA要解决问题

多模态连接缺失。问题关键词往往只与文本局部匹配，而真正答案却藏在图表视觉区，需要建立“文本-视觉”在同页内的语义桥。

跨页证据链接与长距推理缺失。答案需要把 A 页的“说明性文字”与 B 页的“数值表格”联合计算，现有方法无法显式聚合跨页语义。

MMRAG-DocQA的方案

首次将“分层索引 + 多粒度检索”引入多模态长文档问答。

设计扁平化页内索引（flattened in-page index）与拓扑跨页索引（topological cross-page index），同时建模“同页异模态相关性”与“跨页远距离依赖”。

提出页级父页检索（parent-page retrieval）与文档级摘要检索（summary retrieval）两种互补策略，实现粗-细粒度证据互补。

分层索引构造多模态内容语义编码（1）文本侧：将一页拆成三类文本：

：纯文本行；

：表格序列化（保留行-列-单元格结构，用,标记）；

：版式 OCR 框，用坐标 + 内容描述。合并后得页内文本语料。

（2）视觉侧：

对图表、图像，用 LVLM（Qwen-VL-Plus）生成一段文字描述；

当前的技术路线与困境

MMRAG-DocQA要解决问题

MMRAG-DocQA的方案

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签