新智元 2025-09-17 13:12 北京
规模合成数据助力Deep Research新高度

💡 **高质量数据驱动深度研究进展**:传统QA任务已难以满足大模型在撰写调研报告、梳理学术脉络等深度研究场景的需求。智源研究院推出的InfoSeek数据集,是首个专为深度研究设计的大规模开源数据集,通过提供高质量、高难度的训练样本,有效弥补了该领域数据短板,为大模型提升复杂推理和信息检索能力提供了关键支撑。
🔄 **创新「扩散-回溯」数据合成方法**:为解决深度研究数据稀缺问题,智源团队提出了「扩散-回溯」数据合成方法。该方法将深度研究问题数学等价地定义为层级约束满足问题(HCSP),通过「扩散」构建问题树状结构,再利用「回溯」验证其正确性,实现了大规模训练数据的自动扩增。InfoSeek数据集由此生成,包含5万条样本,且支持持续扩容以增加难度。
🚀 **3B模型在基准测试中媲美商业模型**:基于InfoSeek数据集训练的3B参数模型,在BrowseComp-Plus基准测试中取得了16.5%的准确率,表现已接近Gemini、Sonnet 4.0等领先的商业模型。这一成果有力证明了InfoSeek数据集的有效性,以及「扩散-回溯」方法在训练具有强大深度研究能力模型方面的巨大潜力,尤其是在处理需要多轮检索和推理的复杂问题上。
🌐 **开源共享促进社区发展**:智源研究院将InfoSeek数据集、数据合成代码仓库以及相关技术报告全部开源。此举旨在降低研究门槛,促进全球研究者和开发者在深度研究领域的合作与创新,共同推动检索技术和人工智能的进步,构建一个开放繁荣的开源生态系统。
新智元 2025-09-17 13:12 北京
规模合成数据助力Deep Research新高度
新智元报道
编辑:艾伦
【新智元导读】在大模型走向深度研究的道路上,高质量数据一直是最大短板。近日,北京智源人工智能研究院发布首个面向深度研究的大规模开源数据集InfoSeek,并提出了创新性的「扩散-回溯」数据合成方法。基于5万条自动生成的高难度训练样本,智源仅用3B参数规模的模型,就在BrowseComp-Plus基准上取得接近Gemini等商业模型的表现!
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑