智源TALK | GitHub 5.6k stars＋热榜第一，阿里千问开源智能体 WebSailor 如何逼近闭源推理能力？

智源社区 08月05日

智源TALK | GitHub 5.6k stars＋热榜第一，阿里千问开源智能体 WebSailor 如何逼近闭源推理能力？

WebSailor是一款新型智能体，通过结构化采样与信息模糊技术生成具有高度不确定性的任务，结合RFT冷启动与高效agentic RL算法训练，在处理复杂信息寻求任务时性能超越所有开源agent，达到与顶尖闭源系统相当的水平，成功弥合两者之间的能力鸿沟。

💡WebSailor智能体通过结构化采样与信息模糊技术生成具有高度不确定性的新型任务，结合RFT冷启动与高效agentic RL算法训练，突破人类认知局限。

🔍该方法的核心在于系统性地消除极端不确定性，在处理复杂信息寻求任务时，性能显著超越所有开源agent，达到顶尖闭源系统水平。

📈通过数据构建到post-training的完整流程，WebSailor成功弥合了开源与闭源智能体之间的能力鸿沟，展现出超人类水平的推理能力。

🔧该方法为LLM训练领域提供了一种新的思路，通过生成具有高度不确定性的任务，提升模型的复杂推理模式。

🚀WebSailor的成功表明，开源模型通过特定技术也能达到闭源系统的水平，为未来LLM训练领域的发展提供了新的方向。

报告主题：WebSailor：面向超人类水平的Agent推理任务

报告日期：08月07日（周四）10:30-11:30

报告要点:

突破人类的认知局限是LLM训练领域的一大前沿挑战，现有如DeepResearch等闭源智能体系统，已在“BrowseComp”这类极为复杂的web benchmark中，展现出超越人类的卓越能力。我们认为，其成功的核心在于一种开源模型普遍缺失的复杂推理模式：当面对浩瀚无垠的信息环境时，能够系统性地消除极端不确定性的能力。

基于这一认知，我们提出了一套从数据构建到post-training的完整流程，旨在赋予模型此项关键能力。该方法通过结构化采样与信息模糊技术生成具有高度不确定性的新型任务，并结合RFT冷启动与名为DUPO的高效agentic RL算法进行训练。

基于这套流程得到了我们的智能体WebSailor，在处理复杂information seeking任务时，其性能显著超越了所有开源agent，成功达到了与顶尖闭源系统相当的水平，弥合了两者之间的能力鸿沟。

报告嘉宾：

李宽，香港科技大学二年级博士生，研究方向：LLM Agent，Trustworthy Machine Learning，现在在通义实验室DeepResearch项目组实习。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WebSailor 智能体 LLM训练推理能力开源模型

相关文章

Meet Verba 1.0: Run State-of-the-Art RAG Locally with Ollama Integration and Open Source Models

昆仑万维与北京联通达成战略合作

百度何俊杰：大模型不应该只向内卷算力、卷参数，更应该向外卷场景、卷问题

AI代理人的機會與考驗

Llama3-V: A SOTA Open-Source VLM Model Comparable performance to GPT4-V, Gemini Ultra, Claude Opus with a 100x Smaller Model

GNN-RAG: A Novel AI Method for Combining Language Understanding Abilities of LLMs with the Reasoning Abilities of GNNs in a Retrieval-Augmented Generation (RAG) Style

斯坦福AI项目作者对抄袭中国大模型致歉，承诺撤下相关模型

不仅仅是规模

爱丽丝梦游仙境显示法律硕士完全推理崩溃的简单任务

智谱 AI Open Day，低调不代表我没实力，实在是中国AI 品牌代言领军人物