2025-11-03 17:18 湖北
检索范式 代表模型 优势场景 计算成本 文本检索 Qwen3-Embedding 合同、论文正文 低(0.6B参数) 视觉检索 ColPali/Jina-VL 财报图表、幻灯片 高(>3B参数) 混合检索 Doc-Researcher 复杂多模态文档 中等 维度 M4DocBench 现有最佳基准 平均文档数 12.7 1-2 证据页数 7.0页 1.2页 标注细粒度 14.8个布局框 无 场景 传统方案痛点 Doc-Researcher优势 手工整理图表数据 自动提取图表+跨报告对比 遗漏附件中的关键条款 联合解析正文+附件+附图 无法结合CT图像与文字 整合影像+病历+论文 幻灯片与讲义分离 统一检索PPT+PDF+教材 推荐阅读当大模型遇上“看不懂”的文档
在ChatGPT引领的AI革命中,大语言模型(LLM)展现了惊人的推理能力。然而,当面对专业领域的复杂文档时,它们却常常“束手无策”:模态缺失:现有Deep Research系统仅支持纯文本网页,无法处理PDF、论文、财报中的图表、表格、公式结构破坏:简单OCR将文档转为纯文本,丢失布局信息(如表格结构、图表标题)检索粗暴:单轮检索+固定粒度,无法适应“先概览后精读”的人类研究习惯如图1所示,一个真实的研究场景可能需要:跨3个文档→整合文本+表格+图片→回答多跳问题。这正是Doc-Researcher要解决的挑战!三位一体的解决方案
1️⃣ 深度多模态解析(Deep Multimodal Parsing)布局感知:用MinerU检测文档元素(文本段、表格、图表、公式),保留边界框坐标智能分块:按章节合并文本,生成4级粒度(chunk/page/full/summary)布局感知的chunk模态转录:表格/图表用VLM生成描述,公式转LaTeX,实现一次解析,多次复用
图5:布局感知分块流程2️⃣ 系统级检索架构(Systematic Retrieval)对比10种检索器后,发现:文本检索:适合密集文本,但丢失视觉语义(如折线图趋势)视觉检索:直接编码页面截图,保留图表信息,但计算成本高混合检索:文本块+视觉块双编码,在M4DocBench上提升8-12%召回率
3️⃣ 多智能体研究流程(Multi-Agent Workflow)Planner:像人类研究员一样先筛选相关文档(减少60-80%搜索空间),再动态选择粒度(summary→chunk→page)Searcher & Refiner:迭代执行“检索-精炼”循环,支持多跳推理(如先找“Q3营收”→再对比“同比增长”)Reporter:生成图文交织的答案,直接嵌入关键图表作为证据图2:Doc-Researcher系统架构
全面碾压现有方案
🏆 M4DocBench:首个“四多”基准M4DocBench标注示例为公平评测,构建了M4DocBench:多跳(Multi-hop):158个问题平均需3.8个文档证据链多模态(Multi-modal):112个问题需文本+表格+图片多文档(Multi-document):平均每题12.7个文档(最多42个)多轮(Multi-turn):58个问题需结合对话历史
📈 性能对比:3.4倍提升!在M4DocBench上,Doc-Researcher以50.6%准确率登顶,远超:最强基线(MDocAgent):15.8% → +34.8%长文本模型(DeepSeek-R1):31.7% → +18.9%纯视觉RAG(M3DocRAG):7.0% → +43.6%
图3:迭代搜索深度对性能的影响
从实验室到产业界
金融研报分析 法律合同审查 医学文献调研 教育资料准备 https://arxiv.org/html/2510.21603研究机构:华为技术有限公司 Doc-Researcher: A Unified System for Multimodal DocumentParsing and Deep Research
