index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
多模态长文档视觉问答(M-L-DocQA)要求系统处理包含文本、表格、图表和图像的PDF,并能跨页、跨模态地融合信息生成答案。当前主要有两种技术路线:一是基于大视觉-语言模型(LVLM)的端到端方法,但存在上下文长度限制和幻觉问题;二是检索增强生成(RAG)方法,但存在模态割裂、跨页碎片化和证据粒度单一等缺点。MMRAG-DocQA旨在解决这些问题,通过“分层索引 + 多粒度检索”策略,引入扁平化页内索引和拓扑跨页索引,同时建模同页异模态相关性与跨页远距离依赖,并采用页级父页检索和文档级摘要检索,实现粗细粒度证据互补,从而提升长文档多模态问答的准确性和可验证性。
📚 **多模态长文档问答的挑战与现有技术困境**:M-L-DocQA任务面临处理长达数十页、包含多种模态(文本、表格、图表、图像)的PDF文档,并需融合跨页、跨模态信息生成答案。当前技术路线存在两大类:一是LVLM直接端到端,但受限于上下文长度,长文档易信息丢失且幻觉率高;二是RAG方法,虽然可扩展性强,但存在模态割裂(文本与图像信息割裂)、跨页语义关联弱(以单页或单段为粒度)以及证据粒度单一(仅段落或整图)等问题。
💡 **MMRAG-DocQA的创新方案:分层索引与多粒度检索**:为解决上述问题,MMRAG-DocQA首次提出将“分层索引”与“多粒度检索”引入多模态长文档问答。通过构建“扁平化页内索引”来连接同一页内的文本与视觉信息,以及“拓扑跨页索引”来建模跨页的长距离语义依赖。这种结构能够同时处理“同页异模态相关性”和“跨页远距离依赖”。
🔍 **多粒度检索策略:页级父页与文档级摘要**:MMRAG-DocQA设计了两种互补的检索策略:页级父页检索(Modality Connection)用于连接文本与同页视觉信息,通过文本段召回相关图像;文档级摘要检索(Long-distance Reasoning)则利用拓扑索引,召回跨多页聚合的宏观语义摘要,以支持需要多跳推理的任务。这两种策略结合,实现了对不同粒度信息的有效利用。
⚙️ **分层索引构造与证据融合**:具体而言,分层索引包括扁平化页内索引(将文本按块编码,关联父页)和拓扑跨页索引(将小文本块聚类并生成多层级摘要节点)。最终,将通过多粒度检索得到的证据(包括视觉重描述和宏观摘要)与原文拼接,送入LLM进行答案生成,并采用CoT提示模板引导模型进行逐步分析、推理并输出最终答案及类型。
CourseAI 2025-09-24 12:08 湖北

多模态长文档视觉问答(Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA)要求系统在给定一份可能长达数十页, 包含:文本、表格、图表、图像与版式元素的 PDF。自动定位并融合跨页、跨模态的证据,最终生成自然语言答案。
这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。深入接触过RAG的读者们,想必都明白其中的技术难点。当前的技术路线与困境
目前基本上就两条技术路线1、大视觉-语言模型直接端到端(LVLM-based)代表工作:GPT-4V、Qwen-VL、InternLM-XComposer2-4KHD 等。优点:无需显式检索,可一次性读入整图或整 PDF。缺点:上下文长度受限,>100 页 PDF 必须滑动窗口或降采样,导致信息丢失;幻觉严重,在多跳数值推理上错误率极高;黑箱推理,难以给出可验证的证据链。2、检索增强生成(RAG-based)代表工作:ColBERTv2、M3DocRAG、VisRAG 等。优点:可扩展至任意页数,显式返回证据,降低幻觉。缺点:模态割裂——文本检索器只看 OCR,图像检索器只看截图,二者得分空间不可比,导致“图文不能互通”;跨页碎片化——现有方法以单页或单段为检索粒度,无法建模“页与页之间的语义远距离依赖”;证据粒度单一——要么只召回段落,要么只召回整图,缺乏“页级父页 + 文档级摘要”的多层次证据。MMRAG-DocQA要解决问题
多模态连接缺失。问题关键词往往只与文本局部匹配,而真正答案却藏在图表视觉区,需要建立“文本-视觉”在同页内的语义桥。跨页证据链接与长距推理缺失。答案需要把 A 页的“说明性文字”与 B 页的“数值表格”联合计算,现有方法无法显式聚合跨页语义。MMRAG-DocQA的方案
首次将“分层索引 + 多粒度检索”引入多模态长文档问答。设计扁平化页内索引(flattened in-page index)与拓扑跨页索引(topological cross-page index),同时建模“同页异模态相关性”与“跨页远距离依赖”。提出页级父页检索(parent-page retrieval)与文档级摘要检索(summary retrieval)两种互补策略,实现粗-细粒度证据互补。分层索引构造多模态内容语义编码(1)文本侧:将一页 拆成三类文本::纯文本行;:表格序列化(保留行-列-单元格结构,用,标记);:版式 OCR 框,用坐标 + 内容描述。合并后得页内文本语料 。(2)视觉侧:对图表、图像,用 LVLM(Qwen-VL-Plus)生成一段文字描述 ; 同时保留原始像素 ,避免细节丢失。最终视觉语料 ,文本语料 。 扁平化页内索引 目的:让“文本段”成为检索入口,快速定位到“同页视觉”。步骤:把每页文本按 300 token 滑动窗口、50 token 重叠切分成均匀 chunk ;用 text-embedding-v4 编码得向量 ;建立倒排索引 ,并记录 P_i$。拓扑跨页索引 目的:把“语义相近但页码远离”的片段聚成簇,生成可检索的“摘要节点”。步骤:更小粒度:先以 100 token(约 5 句)切分全文档得块集合 ;编码:用 multi-qa-mpnet-base-cos-v1 得 ;高斯混合聚类(GMM)(=32 个簇)得第一层的叶节点;对每一簇 ,用 GPT-3.5-turbo 生成一段摘要 ;把摘要再编码,作为上一层节点向量,重复 L=3 层,形成一棵“拓扑树”;索引 收录所有层节点向量,以便检索时既能命中细粒度叶块,也能命中高层摘要。多粒度检索策略页级父页检索(Modality Connection) 动机:答案图表与描述文字常共处一页,只要召回“相关文本段”,就能顺藤摸瓜拿到同页图像。流程:用 计算 Q 与所有 z^c_i,j 的余弦相似度,取 Top-K_c 文本段 C_q;收集这些段对应的父页集合 ;为去噪,用 LLM 对 Top-K_pP^final_q$;在 中捞出属于 的原图,得到 ;用 LVLM 针对 Q 对 做“视觉重描述”,生成与问题最贴切的视觉证据 。文档级摘要检索(Long-distance Reasoning)动机:跨页数值对比、多跳逻辑需要“宏观语义”指引,仅靠零散段无法满足。流程:在拓扑索引 I_cross 中,计算 Q 与所有节点向量的相似度;取 Top-K_s 个节点,拉取对应摘要,得 Summary^final_q;摘要已天然融合多页信息,可直接作为“高层证据”。证据融合与答案生成最终上下文 ,拼接后送入 LLM。提示模板 P_CoT 要求模型按四步输出:Step-by-step Analysis → Reasoning Summary → Relevant Pages → Final Answer[type],其中 type∈{List,Integer,String,Float},方便脚本自动提取,无需额外正则。
https://arxiv.org/pdf/2508.00579v2https://github.com/Gzy1112/MMRAG-DocQA
每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~阅读原文
跳转微信打开