2025-08-15 17:08 吉林
首个开源多模态Deep Research Agent!
尽管闭源系统如 OpenAI 的 DeepResearch 已展现出强大的文本深度研究能力,但它们大多局限于纯文本环境,难以处理现实世界中无处不在的图像、图表和混合内容。
而现有开源 Agent 也面临两大瓶颈:
一类是专注于文本检索的先进 Agent,虽能整合信息,但“看不见图”;
另一类是视觉 Agent,虽能识图反搜,却缺乏跨模态推理与多工具协同能力。
真正的多模态 Deep Research,必须同时具备:视觉理解、逻辑推理、知识调用、工具调度、自我验证——而这正是 WebWatcher 的突破所在。
WebWatcher 整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,能像人类研究员一样看图、搜索、推理、验证,全自动完成复杂信息追踪与深度研究任务。通过基于高质量合成轨迹的冷启动训练,并结合强化学习进一步优化决策能力,WebWatcher 能在面对跨模态、多步骤的复杂挑战时,自主规划工具调用路径,逐步获取线索、整合信息,最终得出可信答案。
为了让你更直观地理解它的能力,我们录制了一段真实运行的 demo 视频:
WebWatcher 的技术方案覆盖了从数据构建到训练优化的完整链路,核心目标是让多模态 Agent 在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。整个方法包含三大环节:
多模态高难度数据生成:构建具备复杂推理链和信息模糊化的训练数据;
高质量推理轨迹构建与后训练:生成贴近真实多工具交互的推理轨迹,并通过监督微调(SFT)完成初步能力对齐。然后利用 GRPO 在复杂任务环境中进一步提升模型的决策能力与泛化性;
高难度基准评测:构建并使用 BrowseComp-VL 对模型的多模态深度推理能力进行验证。
1. 多模态高难度数据生成
现有大多数 VQA 数据集集中于单步感知任务,缺乏规划性与深度推理需求,难以支撑多模态深度研究代理的训练。为此,研究团队设计了一个全自动多模态数据生成流程,目标是在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本。
随机游走收集跨模态知识链研究团队在多源网页(文本、图片、混合页面)中进行随机游走采样,构建多领域实体图谱。不同于传统的线性多跳问答链,这种图谱连接稠密、路径不固定,问题的解决路线难以预设,逼迫模型探索性地组合视觉信息。
信息模糊化提升不确定性在生成问题时,研究团队刻意隐藏关键信息(如将“2019 年”替换为“21 世纪初”、将实体名改为描述性短语),并在视觉部分引入模糊指代词描述,使得模型无法依赖简单模式匹配,必须进行跨模态推理。
文本-视觉联合转换所有复杂问题(QA) 样本通过 QA-to-VQA 转换模块扩展为多模态版本,将图谱中的部分实体或关系替换为图片、图表或网页截图,使问题天然依赖跨模态理解能力。
经过多阶段过滤,包括语义合理性检查、视觉相关性验证、推理链长度控制,研究团队得到了一个大规模、高质量的多模态推理数据集,能够覆盖多种复杂推理模式。
2. 高质量推理轨迹构建与后训练
在高难度训练数据的基础上,模型还需要学习如何调用工具和如何在推理中动态切换策略。然而,现有推理模型在长链多工具任务中存在两个问题:
1、思维链条冗长、模板化,缺乏跨任务的适应性;
2、工具调用格式和角色差异大,直接采集到的轨迹难以直接用于训练。
为此,研究团队提出了Action-Observation 驱动的轨迹生成方法:
收集真实的多工具交互轨迹;
保留其 Action-Observation 结构,但控制 Thought 部分,确保每一步推理都简洁、行动导向,而非冗长的模板化解释;
使用规则过滤与 LLM 辅助审查,剔除低质量轨迹。
随后,研究团队基于这些高质量轨迹进行监督微调(SFT),让 WebWatcher 在训练初期快速掌握多模态 ReAct 式推理和工具调用的基本模式,为后续的强化学习阶段打下基础。
在完成冷启动后,WebWatcher 进入强化学习阶段,用 GRPO 进一步提升多模态 Agent 在复杂环境下的决策能力。模型严格结合格式正确性与答案准确性双重标准设计奖励,对多步工具调用的连贯性和最终答案的准确性均予以关注,从而提升多模态决策链的可靠性。
3. BrowseComp-VL:多模态深度研究基准
为了全面验证 WebWatcher 的能力,研究团队提出了 BrowseComp-VL,它是 BrowseComp 在视觉-语言任务上的扩展版本,设计目标是逼近人类专家的跨模态研究任务难度。
该基准具有以下特点:
任务长且信息模糊化:问题往往包含多个模糊实体描述,需要跨网页、跨模态搜索与整合;
多工具协作必要性:任务无法仅靠感知或文本检索完成,必须结合网页浏览、图像检索、OCR、代码执行等多种工具;
真实网络环境:测试样本来自真实网页与图像资源,保持复杂性与不可预测性。
在多轮严格评测中,WebWatcher 在四大核心领域全面领先于当前主流的开源与闭源多模态大模型,显示出其在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上的强劲实力。
复杂推理(HLE-VL)在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数一举夺魁,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)、Qwen2.5-VL-72B(8.6%)等代表性模型。充分证明了其在高难度知识融合与链式决策中的推理能力。
信息检索能力(MMSearch)在更贴近真实多模态搜索的MMSearch评测中,WebWatcher 同样表现卓越,Pass@1得分高达55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)等大幅领先,展现了极高的检索精准性和复杂场景下的信息聚合能力。
知识+检索整合(LiveVQA)LiveVQA是知识推理与外部信息获取深度协同的典型场景。WebWatcher的Pass@1成绩达到58.7%,领先Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%),充分体现了其在知识调用、事实核查与实时信息融合等多维技能上的系统性优势。
信息寻优与聚合(BrowseComp-VL)在最具综合挑战的BrowseComp-VL基准(信息聚合型任务)上,WebWatcher 以27.0%的平均得分(Pass@1)遥遥领先,于GPT-4o(13.4%)、Gemini2.5-flash(13.0%)、Qwen2.5-VL-72B(11.5%)、Claude-3.7(11.2%)等国内外主流旗舰模型,成绩提升超过一倍。该基准涵盖了跨网页、多实体、模糊表达等严苛考验,彰显了WebWatcher 在复杂信息寻优与聚合领域的绝对能力优势。
综合来看,WebWatcher 不仅在单一任务维度实现领先,更在复合型任务、跨模态复杂推理及真实信息检索等方面,奠定了新一代开源多模态 Agent 的领先地位。
WebWatcher 已在 GitHub 全面开源,我们欢迎每一位开发者、研究者加入,一起探索多模态 Deep Research 的未来。
🔗 仓库地址:https://github.com/Alibaba-NLP/WebAgent
🔗 论文 :https://arxiv.org/abs/2508.05748
