PaperAgent 前天 17:31
Doc-Researcher:多模态文档解析与深度研究的统一系统
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大型语言模型在处理纯文本方面表现出色,但在面对PDF、论文、财报等包含图表、表格、公式的复杂文档时常遇到困难。Doc-Researcher系统应运而生,旨在解决模态缺失、结构破坏和检索粗暴等问题。它采用“三位一体”的解决方案:深度多模态解析,能够感知布局并智能分块,将表格、图表、公式转化为可复用的描述;系统级检索架构,结合文本和视觉信息,提升多模态文档的召回率;以及多智能体研究流程,模拟人类研究员的“先概览后精读”习惯,通过Planner、Searcher & Refiner、Reporter协同工作,实现高效的多跳问题回答和图文并茂的答案生成。在M4DocBench基准测试中,Doc-Researcher准确率高达50.6%,远超现有方案。

🔍 **深度多模态解析**:Doc-Researcher通过MinerU技术实现布局感知,能精准识别文档中的文本段、表格、图表和公式,并保留其边界框坐标。它能将文档按章节智能分块,生成四级粒度(chunk/page/full/summary),并对表格、图表生成描述,公式转为LaTeX,实现“一次解析,多次复用”,有效解决了传统OCR方法丢失结构信息的问题。

🗂️ **系统级检索架构**:该系统对比了多种检索器,发现混合检索(结合文本块和视觉块的双编码)在处理复杂多模态文档时表现最佳,能在M4DocBench上提升8-12%的召回率。这种方法兼顾了文本的密集信息和视觉的语义信息,如折线图的趋势,克服了纯文本检索丢失视觉语义和纯视觉检索成本高昂的缺点。

🤖 **多智能体研究流程**:Doc-Researcher模拟了人类研究员的研究习惯,采用Planner来预筛选相关文档,显著减少搜索空间(60-80%)。接着,Searcher & Refiner进行迭代的“检索-精炼”循环,支持多跳推理,能够动态选择合适的粒度(从summary到chunk再到page)。Reporter则负责生成图文交织的答案,直接嵌入关键图表作为证据,提升了研究效率和答案的准确性。

🏆 **卓越的性能表现**:为公平评测,该系统构建了首个“四多”(多跳、多模态、多文档、多轮)基准M4DocBench。在M4DocBench上,Doc-Researcher以50.6%的准确率大幅领先,是现有最强基线(15.8%)的3.4倍,同时在金融研报分析、法律合同审查、医学文献调研和教育资料准备等多个实际应用场景中展现出巨大优势。

2025-11-03 17:18 湖北

大家好,我是PaperAgent,不是Agent!

当大模型遇上“看不懂”的文档

在ChatGPT引领的AI革命中,大语言模型(LLM)展现了惊人的推理能力。然而,当面对专业领域的复杂文档时,它们却常常“束手无策”:

模态缺失:现有Deep Research系统仅支持纯文本网页,无法处理PDF、论文、财报中的图表、表格、公式

结构破坏:简单OCR将文档转为纯文本,丢失布局信息(如表格结构、图表标题)

检索粗暴:单轮检索+固定粒度,无法适应“先概览后精读”的人类研究习惯

如图1所示,一个真实的研究场景可能需要:跨3个文档整合文本+表格+图片回答多跳问题。这正是Doc-Researcher要解决的挑战!

三位一体的解决方案

1️⃣ 深度多模态解析(Deep Multimodal Parsing)布局感知:用MinerU检测文档元素(文本段、表格、图表、公式),保留边界框坐标

智能分块:按章节合并文本,生成4级粒度(chunk/page/full/summary)

布局感知的chunk模态转录:表格/图表用VLM生成描述,公式转LaTeX,实现一次解析,多次复用

图5:布局感知分块流程2️⃣ 系统级检索架构(Systematic Retrieval)对比10种检索器后,发现:

文本检索:适合密集文本,但丢失视觉语义(如折线图趋势)

视觉检索:直接编码页面截图,保留图表信息,但计算成本高

混合检索:文本块+视觉块双编码,在M4DocBench上提升8-12%召回率

检索范式

代表模型

优势场景

计算成本

文本检索

Qwen3-Embedding

合同、论文正文

低(0.6B参数)

视觉检索

ColPali/Jina-VL

财报图表、幻灯片

高(>3B参数)

混合检索

Doc-Researcher

复杂多模态文档

中等

3️⃣ 多智能体研究流程(Multi-Agent Workflow)Planner:像人类研究员一样先筛选相关文档(减少60-80%搜索空间),再动态选择粒度(summary→chunk→page)

Searcher & Refiner:迭代执行“检索-精炼”循环,支持多跳推理(如先找“Q3营收”→再对比“同比增长”)

Reporter:生成图文交织的答案,直接嵌入关键图表作为证据

图2:Doc-Researcher系统架构

全面碾压现有方案

🏆 M4DocBench:首个“四多”基准M4DocBench标注示例为公平评测,构建了M4DocBench

多跳(Multi-hop):158个问题平均需3.8个文档证据链

多模态(Multi-modal):112个问题需文本+表格+图片

多文档(Multi-document):平均每题12.7个文档(最多42个)

多轮(Multi-turn):58个问题需结合对话历史

维度

M4DocBench

现有最佳基准

平均文档数

12.7

1-2

证据页数

7.0页

1.2页

标注细粒度

14.8个布局框

📈 性能对比:3.4倍提升!在M4DocBench上,Doc-Researcher以50.6%准确率登顶,远超:

最强基线(MDocAgent):15.8% → +34.8%

长文本模型(DeepSeek-R1):31.7% → +18.9%

纯视觉RAG(M3DocRAG):7.0% → +43.6%

图3:迭代搜索深度对性能的影响

从实验室到产业界

场景

传统方案痛点

Doc-Researcher优势

金融研报分析

手工整理图表数据

自动提取图表+跨报告对比

法律合同审查

遗漏附件中的关键条款

联合解析正文+附件+附图

医学文献调研

无法结合CT图像与文字

整合影像+病历+论文

教育资料准备

幻灯片与讲义分离

统一检索PPT+PDF+教材

https://arxiv.org/html/2510.21603研究机构:华为技术有限公司 Doc-Researcher: A Unified System for Multimodal DocumentParsing and Deep Research

推荐阅读

     动手设计AI Agents:(编排、记忆、插件、workflow、协作)

    一篇92页大模型Vibe Coding技术全面综述

     快手开源多模态Keye-VL-1.5-8B,本地视觉Agent有救了

    一篇最新自演化AI Agents全新范式系统性综述


    每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    Doc-Researcher 多模态文档解析 深度研究 大型语言模型 AI Agents Multimodal Document Parsing Deep Research Large Language Models AI Agents
    相关文章