报告主题:WebSailor:面向超人类水平的Agent推理任务

报告日期:08月07日(周四)10:30-11:30

报告要点:

突破人类的认知局限是LLM训练领域的一大前沿挑战,现有如DeepResearch等闭源智能体系统,已在“BrowseComp”这类极为复杂的web benchmark中,展现出超越人类的卓越能力。我们认为,其成功的核心在于一种开源模型普遍缺失的复杂推理模式:当面对浩瀚无垠的信息环境时,能够系统性地消除极端不确定性的能力。

基于这一认知,我们提出了一套从数据构建到post-training的完整流程,旨在赋予模型此项关键能力。该方法通过结构化采样与信息模糊技术生成具有高度不确定性的新型任务,并结合RFT冷启动与名为DUPO的高效agentic RL算法进行训练。

基于这套流程得到了我们的智能体WebSailor,在处理复杂information seeking任务时,其性能显著超越了所有开源agent,成功达到了与顶尖闭源系统相当的水平,弥合了两者之间的能力鸿沟。

报告嘉宾:
李宽,香港科技大学二年级博士生,研究方向:LLM Agent,Trustworthy Machine Learning,现在在通义实验室DeepResearch项目组实习。

扫码报名

更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除