通义 09月25日
开源多模态Deep Research Agent介绍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

WebWatcher 是一个开源的多模态 Deep Research Agent,能够像人类研究员一样看图、搜索、推理、验证,全自动完成复杂信息追踪与深度研究任务。它整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,并具备视觉理解、逻辑推理、知识调用、工具调度、自我验证等能力。WebWatcher 通过基于高质量合成轨迹的冷启动训练,并结合强化学习进一步优化决策能力,能够自主规划工具调用路径,逐步获取线索、整合信息,最终得出可信答案。在 BrowseComp-VL 基准测试中,WebWatcher 在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。

🔍 WebWatcher 是一个开源的多模态 Deep Research Agent,能够像人类研究员一样进行视觉理解、逻辑推理、知识调用、工具调度和自我验证,全自动完成复杂信息追踪与深度研究任务。

🖥️ WebWatcher 整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,能够像人类研究员一样进行多模态信息处理和推理。

🎯 WebWatcher 通过基于高质量合成轨迹的冷启动训练,并结合强化学习进一步优化决策能力,能够自主规划工具调用路径,逐步获取线索、整合信息,最终得出可信答案。

🏆 在 BrowseComp-VL 基准测试中,WebWatcher 在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。

2025-08-15 17:08 吉林

首个开源多模态Deep Research Agent!

尽管闭源系统如 OpenAI 的 DeepResearch 已展现出强大的文本深度研究能力,但它们大多局限于纯文本环境,难以处理现实世界中无处不在的图像、图表和混合内容。

而现有开源 Agent 也面临两大瓶颈

    一类是专注于文本检索的先进 Agent,虽能整合信息,但“看不见图”;

    另一类是视觉 Agent,虽能识图反搜,却缺乏跨模态推理与多工具协同能力。

真正的多模态 Deep Research,必须同时具备:视觉理解、逻辑推理、知识调用、工具调度、自我验证—而这正是 WebWatcher 的突破所在。

WebWatcher 整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,能像人类研究员一样看图、搜索、推理、验证,全自动完成复杂信息追踪与深度研究任务。通过基于高质量合成轨迹的冷启动训练,并结合强化学习进一步优化决策能力,WebWatcher 能在面对跨模态、多步骤的复杂挑战时,自主规划工具调用路径,逐步获取线索、整合信息,最终得出可信答案。 

为了让你更直观地理解它的能力,我们录制了一段真实运行的 demo 视频:

WebWatcher 的技术方案覆盖了从数据构建到训练优化的完整链路,核心目标是让多模态 Agent 在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。整个方法包含三大环节:

    多模态高难度数据生成构建具备复杂推理链和信息模糊化的训练数据;

    高质量推理轨迹构建与后训练:生成贴近真实多工具交互的推理轨迹,并通过监督微调(SFT)完成初步能力对齐。然后利用 GRPO 在复杂任务环境中进一步提升模型的决策能力与泛化性;

    高难度基准评测:构建并使用 BrowseComp-VL 对模型的多模态深度推理能力进行验证。

1. 多模态高难度数据生成

现有大多数 VQA 数据集集中于单步感知任务,缺乏规划性与深度推理需求,难以支撑多模态深度研究代理的训练。为此,研究团队设计了一个全自动多模态数据生成流程,目标是在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本。

    随机游走收集跨模态知识链研究团队在多源网页(文本、图片、混合页面)中进行随机游走采样,构建多领域实体图谱。不同于传统的线性多跳问答链,这种图谱连接稠密、路径不固定,问题的解决路线难以预设,逼迫模型探索性地组合视觉信息。

    信息模糊化提升不确定性在生成问题时,研究团队刻意隐藏关键信息(如将“2019 年”替换为“21 世纪初”、将实体名改为描述性短语),并在视觉部分引入模糊指代词描述,使得模型无法依赖简单模式匹配,必须进行跨模态推理。

    文本-视觉联合转换所有复杂问题(QA) 样本通过 QA-to-VQA 转换模块扩展为多模态版本,将图谱中的部分实体或关系替换为图片、图表或网页截图,使问题天然依赖跨模态理解能力。

经过多阶段过滤,包括语义合理性检查、视觉相关性验证、推理链长度控制,研究团队得到了一个大规模、高质量的多模态推理数据集,能够覆盖多种复杂推理模式。

2. 高质量推理轨迹构建与后训练

在高难度训练数据的基础上,模型还需要学习如何调用工具如何在推理中动态切换策略。然而,现有推理模型在长链多工具任务中存在两个问题:

1、思维链条冗长、模板化,缺乏跨任务的适应性;

2、工具调用格式和角色差异大,直接采集到的轨迹难以直接用于训练。

为此,研究团队提出了Action-Observation 驱动的轨迹生成方法

    收集真实的多工具交互轨迹;

    保留其 Action-Observation 结构,但控制 Thought 部分,确保每一步推理都简洁、行动导向,而非冗长的模板化解释;

    使用规则过滤与 LLM 辅助审查,剔除低质量轨迹。

随后,研究团队基于这些高质量轨迹进行监督微调(SFT),让 WebWatcher 在训练初期快速掌握多模态 ReAct 式推理和工具调用的基本模式,为后续的强化学习阶段打下基础。

在完成冷启动后,WebWatcher 进入强化学习阶段,用 GRPO 进一步提升多模态 Agent 在复杂环境下的决策能力。模型严格结合格式正确性与答案准确性双重标准设计奖励,对多步工具调用的连贯性和最终答案的准确性均予以关注,从而提升多模态决策链的可靠性。

3. BrowseComp-VL:多模态深度研究基准

为了全面验证 WebWatcher 的能力,研究团队提出了 BrowseComp-VL,它是 BrowseComp 在视觉-语言任务上的扩展版本,设计目标是逼近人类专家的跨模态研究任务难度

该基准具有以下特点:

    任务长且信息模糊化问题往往包含多个模糊实体描述,需要跨网页、跨模态搜索与整合;

    多工具协作必要性任务无法仅靠感知或文本检索完成,必须结合网页浏览、图像检索、OCR、代码执行等多种工具;

    真实网络环境测试样本来自真实网页与图像资源,保持复杂性与不可预测性。

在多轮严格评测中,WebWatcher 在四大核心领域全面领先于当前主流的开源与闭源多模态大模型,显示出其在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上的强劲实力。

复杂推理(HLE-VL)在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数一举夺魁,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)、Qwen2.5-VL-72B(8.6%)等代表性模型。充分证明了其在高难度知识融合与链式决策中的推理能力。

信息检索能力(MMSearch)在更贴近真实多模态搜索的MMSearch评测中,WebWatcher 同样表现卓越,Pass@1得分高达55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)等大幅领先,展现了极高的检索精准性和复杂场景下的信息聚合能力。

知识+检索整合(LiveVQALiveVQA是知识推理与外部信息获取深度协同的典型场景。WebWatcher的Pass@1成绩达到58.7%,领先Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%),充分体现了其在知识调用、事实核查与实时信息融合等多维技能上的系统性优势。

信息寻优与聚合(BrowseComp-VL)在最具综合挑战的BrowseComp-VL基准(信息聚合型任务)上,WebWatcher 以27.0%的平均得分(Pass@1)遥遥领先,于GPT-4o(13.4%)、Gemini2.5-flash(13.0%)、Qwen2.5-VL-72B(11.5%)、Claude-3.7(11.2%)等国内外主流旗舰模型,成绩提升超过一倍。该基准涵盖了跨网页、多实体、模糊表达等严苛考验,彰显了WebWatcher 在复杂信息寻优与聚合领域的绝对能力优势。

综合来看,WebWatcher 不仅在单一任务维度实现领先,更在复合型任务、跨模态复杂推理及真实信息检索等方面,奠定了新一代开源多模态 Agent 的领先地位。

WebWatcher 已在 GitHub 全面开源,我们欢迎每一位开发者、研究者加入,一起探索多模态 Deep Research 的未来。

🔗 仓库地址:https://github.com/Alibaba-NLP/WebAgent

🔗 论文 :https://arxiv.org/abs/2508.05748

推荐阅读

WebShaper:探索DeepResearch的数据理论基础

WebDancer:从零训练一个 DeepResearch 类智能体

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WebWatcher 开源 多模态 Deep Research Agent 复杂推理 信息检索 知识整合
相关文章