WebSailor是一款新型智能体,通过结构化采样与信息模糊技术生成具有高度不确定性的任务,结合RFT冷启动与高效agentic RL算法训练,在处理复杂信息寻求任务时性能超越所有开源agent,达到与顶尖闭源系统相当的水平,成功弥合两者之间的能力鸿沟。
💡WebSailor智能体通过结构化采样与信息模糊技术生成具有高度不确定性的新型任务,结合RFT冷启动与高效agentic RL算法训练,突破人类认知局限。
🔍该方法的核心在于系统性地消除极端不确定性,在处理复杂信息寻求任务时,性能显著超越所有开源agent,达到顶尖闭源系统水平。
📈通过数据构建到post-training的完整流程,WebSailor成功弥合了开源与闭源智能体之间的能力鸿沟,展现出超人类水平的推理能力。
🔧该方法为LLM训练领域提供了一种新的思路,通过生成具有高度不确定性的任务,提升模型的复杂推理模式。
🚀WebSailor的成功表明,开源模型通过特定技术也能达到闭源系统的水平,为未来LLM训练领域的发展提供了新的方向。

报告主题:WebSailor:面向超人类水平的Agent推理任务
报告日期:08月07日(周四)10:30-11:30
突破人类的认知局限是LLM训练领域的一大前沿挑战,现有如DeepResearch等闭源智能体系统,已在“BrowseComp”这类极为复杂的web benchmark中,展现出超越人类的卓越能力。我们认为,其成功的核心在于一种开源模型普遍缺失的复杂推理模式:当面对浩瀚无垠的信息环境时,能够系统性地消除极端不确定性的能力。
基于这一认知,我们提出了一套从数据构建到post-training的完整流程,旨在赋予模型此项关键能力。该方法通过结构化采样与信息模糊技术生成具有高度不确定性的新型任务,并结合RFT冷启动与名为DUPO的高效agentic RL算法进行训练。
基于这套流程得到了我们的智能体WebSailor,在处理复杂information seeking任务时,其性能显著超越了所有开源agent,成功达到了与顶尖闭源系统相当的水平,弥合了两者之间的能力鸿沟。
李宽,香港科技大学二年级博士生,研究方向:LLM Agent,Trustworthy Machine Learning,现在在通义实验室DeepResearch项目组实习。
扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除