Deep Research：AI驱动的智能研究新范式

Datawhale 09月26日

Deep Research：AI驱动的智能研究新范式

传统大模型在处理复杂科研任务时存在局限。Deep Research 是一种创新的AI研究范式，旨在让智能体主动探索、动态推理并生成可靠的研究报告。该系统包含 Planning（研究规划）、Question Developing（问题演化）、Web Exploration（网页探索）和 Report Generation（报告生成）四大核心模块。通过强化学习等优化方法，Deep Research 能够将用户开放性问题分解为可执行子目标，生成多样化检索查询，主动与网页交互提取信息，并最终整合证据生成结构清晰、事实可靠的研究报告，从而成为能够自主进行研究的AI研究员。

💡 **Deep Research 核心理念**：该范式旨在克服传统大模型在处理开放、动态科研任务时的知识边界限制，赋予AI自主探索、动态推理和生成可靠研究报告的能力，使其从“问答机”转变为能够独立进行研究的“AI研究员”。

🗺️ **四大核心模块**：一个完整的 Deep Research 系统由 Planning（将问题分解为研究计划）、Question Developing（生成多样化检索查询）、Web Exploration（主动搜索、提取和过滤信息）以及 Report Generation（整合证据生成结构化报告）四个阶段构成，每个模块都面临着关键的技术挑战。

🚀 **强化学习的优化作用**：与SFT/DPO等方法不同，强化学习（RL）能够通过“端到端任务成功”的轨迹级奖励直接优化AI在研究场景中的工具调用和环境交互，尤其适合闭环利用环境反馈（如搜索结果、网页可用性）来纠正错误和提升整体研究效能。

📚 **高质量训练数据的构建**：为强化学习模型提供“燃料”至关重要。通过 Construct（跨文档合成）、Curate（图结构生长）和 Curriculum（难度变换）三段式流水线，可以生成具有不同复杂度、包含多跳推理和多模态信息的数据集，以应对复杂的研究需求。

🎯 **多维度奖励信号设计**：为了有效训练AI研究员，需要设计恰当的奖励机制。这包括结果奖励（如EM/F1、LLM-as-Judge、GBR、Evidence-Utility）和步骤奖励（如工具调用奖励、信息增益-冗余惩罚），并结合信用分配机制（如轨迹级、回合级、Token级）来指导AI的学习过程。

2025-09-25 22:01 浙江

Datawhale分享
关于:Deep Research，来源:PaperAgent
前几天，阿里开源了Tongyi DeepResearch，热度很高，目前14.1k star了！
开源地址：https://github.com/Alibaba-NLP/DeepResearch
关于Deep Research背后更全面的技术栈都有哪些？今天分享两篇最新的Deep Research技术综述：
传统大模型虽然强大，但受限于静态知识边界，面对开放、动态、复杂的科研任务时往往力不从心。为此，Deep Research 应运而生：
一种让智能体主动探索、动态推理、生成可靠报告的代理研究新范式。
它不再是“问答机”，而是“能自己找资料、写综述、做分析”的AI研究员。
Deep Research 的四大核心模块
一个完整的 Deep Research 系统应包括以下四个阶段：
模块
功能
关键挑战
Planning
将用户问题拆解为可执行的研究子目标
如何生成结构化、可解释的研究路径？
Question Developing
为每个子目标生成多样化、上下文相关的检索查询
如何平衡查询的准确性与覆盖度？
Web Exploration
主动调用搜索引擎、浏览网页、提取信息
如何过滤冗余、识别可信来源？
Report Generation
整合证据，生成结构清晰、事实可靠的报告
如何控制结构一致性与事实一致性？
图1：Deep Research 系统架构概览
📊 Planning（研究规划）
✅ 目标
将模糊、开放的研究问题转化为可执行的研究计划，如子问题、检索顺序、证据整合策略。
🔧 方法分类
类别
方法示例
特点
结构化世界知识
Simulate Before Act、WebPilot
利用外部知识图谱或模拟器进行预演
可学习规划
AgentSquare、MindSearch
通过RL或搜索自动优化规划策略
🔍 Question Developing（问题演化）
✅ 目标
将每个子目标转化为多个高质量检索查询，提升信息召回率与相关性。
🔧 方法分类
类别
方法示例
特点
奖励优化类
DeepResearcher、R1-Searcher
用RL优化查询生成策略
监督驱动类
ManuSearch、SearchAgent-X
基于规则或多Agent协作生成查询
🌐 Web Exploration（网页探索）
✅ 目标
主动与网页交互，检索、浏览、提取、过滤信息，支持多轮迭代。
🔧 方法分类
类型
方法示例
特点
网页Agent
WebGPT、WebVoyager
模拟人类浏览行为，支持点击、表单、导航
API检索
Bing/Google Search API
快速、稳定，适合结构化查询
🧾 Report Generation（报告生成）
✅ 目标
将碎片化证据整合为结构清晰、逻辑连贯、事实可靠的研究报告。
🔧 方法分类
类别
方法示例
特点
结构控制
Agent Laboratory、WebThinker
通过大纲、约束、模板控制生成结构
事实一致性
FaithfulRAG、DRAGged
引入冲突检测、证据对齐、引用验证机制
优化：如何让 Deep Research 更靠谱？
传统的大模型问答=“背答案”；
真正的深度研究=多步规划 → 问题演化 → 工具调用 → 结构化报告。
SFT/DPO 只能“模仿”人类轨迹，无法闭环利用环境反馈（搜索失败、网页失效、预算超限）。
RL 用轨迹级奖励直接优化“端到端任务成功”，天然契合“工具-交互”研究场景。
方法
优化目标
数据形式
关键短板
SFT
模仿单步
(q, a) 对
暴露偏差、无法纠错
DPO
偏好排序
(q, a⁺, a⁻)
无状态、信用分配短视
RL
最大化回报
(q, τ, r)
需可验证奖励+探索策略
数据：RL的“燃料”怎么炼？
提出 Construct → Curate → Curriculum 三段式流水线：
策略
代表工作
核心技巧
跨文档合成
WebPuzzle、R-Search
把新鲜新闻+arXiv聚类→生成多跳问题，防止“背参数”
图结构生长
CrawlQA、WebSailor
从维基/GitHub 根节点随机游走→按路径长度自动标难度
难度变换
E2HQA、StepSearch
用 LLM 迭代给原问题加约束，控制“跳数”与“证据密度”
Figure 3：四级复杂度
Level
特征
示例数据集
L1
单点检索
SimpleQA
L2
线性多跳
HotpotQA
L3
高不确定性+复杂图
SailorFog-QA
L4
多模态+多工具
WebWatcher
奖励：拿什么信号训练“Agent”？
结果奖励（Outcome-only）
经典指标：EM/F1、LLM-as-Judge
新花样：
GBR（Gain-Beyond-RAG）：相比“无脑 top-k RAG”的边际提升；
Evidence-Utility：用冻结 LLM 只看收集到的证据能否答对；
Group 相对节俭：同批次正确轨迹里检索次数最少得 bonus。
步骤奖励（Step-level）
工具执行奖励：MT-GRPO 给“成功调用+返回含答案片段”即时 bonus；
信息增益 - 冗余惩罚：StepSearch 用余弦增量衡量每轮收获；
多模态步骤：Visual-ARFT 对每轮图片裁剪→OCR→代码打分。
信用分配（Credit Assignment）
粒度
做法
代表
轨迹级
整条 τ 用 GAE
Search-R1
回合级
每轮混合即时+终端奖励
MT-GRPO
Token 级
工具调用边界挂奖励
ARTIST
开源系统：让RL训练“跑得动”
长工具链 = 高延迟 + 大显存 + 策略过期。2025 新框架亮点：
论文1：https://arxiv.org/pdf/2509.06733
Reinforcement Learning Foundations for Deep Research Systems: A Survey
论文2：https://arxiv.org/abs/2508.12752
Deep Research: A Survey of Autonomous Research Agents
一起“点赞”三连↓

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Deep Research AI研究智能体强化学习自然语言处理 Deep Research AI Research Agent Reinforcement Learning NLP

相关文章

阿里云：通义千问API日调用量破亿企业用户破9万

Microsoft unveils Phi-3 family of compact language models

Import AI 362: Amazon’s big speech model; fractal hyperparameters; and Google’s open models

Exploring the Frontiers of AI: The Emergence of LLM-4 Architectures

Implement RAG Using Weaviate, LangChain4j, and LocalAI

AI Revolution Journey With Qwen, RAG, and LangChain

Extracting Keywords From Text Using Natural Language Processing

Is There a Library for Cleaning Data before Tokenization? Meet the Unstructured Library for Seamless Pre-Tokenization Cleaning

Learn AI Together — Towards AI Community Newsletter #23

Top Important LLM Papers for the Week from 29/04 to 05/05