机器之心 10月30日 21:41
DeepAnalyze:自主数据科学的Agentic LLM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人大和清华的研究团队发布了DeepAnalyze,这是首个面向自主数据科学的agentic LLM,在社区引起广泛讨论,并获得大量关注。DeepAnalyze-8B能够模拟数据科学家的行为,在真实环境中主动编排和优化操作,以完成复杂的数据科学任务,包括数据准备、分析、建模、可视化、洞察生成和报告撰写,以及在各类结构化、半结构化和非结构化数据中进行深度研究。它无需预设工作流,即可自主完成任务,推动了基于LLM的数据科学系统从工作流范式向可训练的agentic LLM范式的转变。为解决训练中的奖励稀疏和路径稀缺问题,DeepAnalyze引入了基于课程的agentic训练和数据驱动的轨迹合成方法。该模型在数据科学基准测试中表现优异,与GPT-4o媲美,并能生成分析师级别的研究报告。

🌟 **DeepAnalyze:首个自主数据科学Agentic LLM** DeepAnalyze是由人大和清华研究团队开发的,是首个专注于自主数据科学领域的agentic LLM。它能够模拟专业数据科学家的工作流程,在无需人工干预的情况下,主动协调和优化各类操作,从而端到端地完成复杂的数据科学任务。该模型在社区引起了广泛关注,并在GitHub上获得了大量星标,显示了其潜力和吸引力。

💡 **核心能力:模拟与执行数据科学全流程** DeepAnalyze-8B模型能够深入模拟数据科学家的行为,并具备强大的自主编排(autonomous orchestration)和自适应优化(adaptive optimization)能力。它能够处理多样化的数据科学任务,包括但不限于自动化数据准备、深入的数据分析、精确的数据建模、直观的数据可视化、生成有价值的数据洞察,以及撰写专业的数据报告。此外,它还能在各种结构化、半结构化和非结构化数据中进行开放式的深度研究,生成分析师级别的报告。

🚀 **创新训练范式:克服复杂性挑战** 为了解决在复杂数据科学任务训练中常见的奖励稀疏(reward sparsity)和路径稀缺(trajectory scarcity)问题,DeepAnalyze引入了两项创新技术。首先是“Curriculum-based Agentic Training”,即在真实环境中,从单一任务逐步过渡到更复杂的任务,以渐进式的方式训练LLM,避免了在早期阶段因任务过难而导致强化学习失效。其次是“Data-grounded Trajectory Synthesis”,通过自动化合成大量(500K)数据科学的推理和环境交互数据,为模型在大规模搜索空间中提供正确的路径指导,从而提高探索效率。

🏆 **卓越性能:媲美顶尖模型** DeepAnalyze在多个数据科学基准测试中展现出卓越的性能。在端到端数据科学基准测试DataSciBench上,DeepAnalyze-8B的表现优于所有同等规模的开源模型,并能与GPT-4o相媲美。在DSBench的数据分析和数据建模任务上,它也超越了基于工作流的智能体。特别是在面向数据的深度研究方面,DeepAnalyze取得了最佳成果,能够生成高质量、分析师级别的研究报告,充分体现了其在理解和处理复杂数据科学问题上的强大能力。


来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLMDeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。


DeepAnalyze正在不断完善中,诚邀大家交流合作!欢迎研究者和从业者在GitHub提交pull request,成为contributor,共建DeepAnalyze!


DeepAnalyze-8B 能够模拟数据科学家的行为,在真实环境中主动编排、优化操作,最终完成复杂的数据科学任务。支持各种以数据为核心的任务:


数据任务:自动化数据准备、数据分析、数据建模、数据可视化、数据洞察、报告生成;

数据研究:可在任意数量的结构化数据(数据库、CSV、Excel)、半结构化数据(JSON、XML、YAML)、非结构化数据(TXT、Markdown)中进行开放式深度研究,生成分析师级别的研究报告;


DeepAnalyze 是一个 agentic LLM,无需任何启发式 workflow,即可自主完成复杂数据科学任务


    论文链接:https://arxiv.org/pdf/2510.16872

    代码、Demo链接:https://github.com/ruc-datalab/DeepAnalyze

    模型链接:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B

    数据链接:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K



DeepAnalyze 的论文、代码、模型、数据均已开源,欢迎大家体验!


DeepAnalyze: 自主完成数据科学全流程



DeepAnalyze 可本地部署,作为您的私有数据科学助手!


DeepAnalyze 是什么?


现有将 LLMs 应用于自主数据科学的方法,可以分为两类:


领域特定的 LLM:面向数据科学的代码生成 LLM、结构化数据理解 LLM...

基于 workflow 的智能体:人为设计 workflow,通过 prompt 调用闭源 LLM 完成任务


现有工作面临两方面局限性:


仅支持单点任务(例如数据分析、数据建模),无法端到端完成数据科学全流程。

闭源模型未在真实环境中的数据科学任务上训练过,难以编排和优化各种复杂操作。


DeepAnalyze 希望推动基于 LLM 的数据科学系统从 workflow-based agent 范式转变到可训练的 agentic LLM 范式。


数据科学的复杂性为训练 agentic LLM 提出了新的挑战,包括:


奖励稀疏:数据科学的复杂性使得 LLMs 在训练的早期阶段基本无法成功完成任务,难以获得正向奖励信号,从而导致 agentic LLM 训练过程崩溃。

路径稀缺:数据科学的解决过程通常依赖长链推理,求解轨迹的稀缺使得 LLMs 缺少足够的指导,导致其在庞大的搜索空间中进行低效且盲目的试错式探索。



针对这两个问题,DeepAnalyze 引入了:


Curriculum-based Agentic Training:在真实环境中从单一任务到符合任务渐进式训练 LLM,让大模型逐步提升能力,避免在复杂任务上奖励信号为 0 导致的强化学习失效

Data-grounded Trajectory Synthesis:自动化合成 500K 数据科学的推理、环境交互数据,在庞大的搜索空间中提供正确路径的指导


通过在真实环境中的 agentic 训练,DeepAnalyze 具备了自动编排和自适应优化操作的能力,能端到端地完成数据科学全流程,包括具体的数据任务和开放式的数据研究。


DeepAnalyze 在数据科学 Benchmarks 上表现优异


1. DeepAnalyze-8B 在 DataSciBench(端到端数据科学 Benchmark)优于所有开源模型,和 GPT-4o 相媲美



2. DeepAnalyze 在 DSBench 数据分析和数据建模任务上由于基于 workflow 的智能体



3. DeepAnalyze 在面向数据的深度研究中取得最佳表现,能生成分析师级别的分析报告



例如:



更多实验结果请参见 DeepAnalyze 论文。


总结


DeepAnalyze 是首个面向自主数据科学的 agentic LLM,具备两项关键能力:自主编排(autonomous orchestration)和 自适应优化(adaptive optimization)。

DeepAnalyze 作为一个基础模型,可以直接应用,或通过提示(prompting)或监督微调(supervised fine-tuning)进一步定制以适应特定场景。

提出的 Curriculum-based Agentic Training 训练范式和 data-grounded trajectory synthesis 数据合成方法,解决了复杂场景下的奖励稀疏(reward sparsity)和轨迹稀缺(trajectory scarcity)问题,实现对需要多种能力的高复杂度任务的有效学习。


附 DeepAnalyze 交流讨论群:



作者介绍:



张绍磊,中国人民大学信息学院助理教授,位于中国人民大学讲席教授范举教授团队。他博士毕业于中国科学院计算技术研究所,导师为冯洋研究员。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。相关研究成果在 NeurIPS、ACL、ICLR 等国际人工智能与自然语言处理会议发表论文 30 余篇,开源的多语言大模型、多模态大模型、数据科学大模型在 GitHub 社区累计获得 5000 + 星标。他长期担任 CCF-A 类国际会议 ACL ARR 的领域主席和责任编辑。个人主页:zhangshaolei1998@github.io。



范举,中国人民大学教授、博士生导师,国家级青年人才,中国计算机学会数据库专委会、大数据专委会执行委员。研究方向包括:数据治理技术与系统、智能数据库系统等。相关研究成果在计算机领域国际顶级期刊 / 会议发表论文 60 余篇。作为负责人先后主持国家自然科学基金优秀青年基金项目、重点项目、面上项目,以及多项产学研合作项目。先后获得 ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、宝钢优秀教师等奖励。


RUC-DataLab是中国人民大学信息学院、数据工程与知识工程教育部重点实验室设立的科研团队,负责人是范举教授,团队专注于数据系统+人工智能 (Data+AI)交叉领域,致力于将数据技术与人工智能技术深度融合,从而打造更加智能、高效的新型数据系统。主要研究方向包括:(1)数据库系统智能化(AI4DB):利用人工智能技术提升数据库系统的查询性能、自治能力等;(2)数据库技术赋能AI系统(DB4AI):利用数据管理技术支撑大模型训练的数据准备、大模型推理的低延迟、高吞吐优化;(3)数智融合的新型数据科学系统(AI4DS):利用推理大模型、多模态语义理解与智能体等技术,提升数据科学系统的智能化水平与执行性能,有效释放数据价值。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepAnalyze Agentic LLM Autonomous Data Science AI for Data Science LLM Data Science Artificial Intelligence Machine Learning Deep Learning Data Preparation Data Analysis Data Modeling Data Visualization Report Generation
相关文章