机器之心 10月03日
TreeSynth:通过树引导子空间划分实现从零开始的数据合成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港大学与香港中文大学的研究团队提出了一种名为 TreeSynth 的创新数据合成方法。该方法受决策树的启发,通过将数据空间进行层层递归分割,形成互不重叠且相互补充的子空间,从而系统性地生成多样化、高质量且分布均衡的训练数据。TreeSynth 采用两阶段流程:首先通过 LLM 确定分割标准并构建空间分割树,然后指导 LLM 在特定子空间约束下生成样本。该方法不仅能从零开始合成数据,还能用于优化现有数据集,实现数据平衡。实验表明,TreeSynth 在数学推理、代码生成等多个基准任务上显著提升了模型性能,并展现出优秀的扩展性和数据多样性。

🌲 **创新的数据合成框架:** TreeSynth 提出了一种受决策树启发的全新数据合成范式。它将复杂的数据空间通过递归分割,分解为多个互斥且能穷尽覆盖的子空间,从而系统性地解决现有数据合成方法在多样性和覆盖性上的不足,为模型训练提供更全面、均衡的数据集。

🛠️ **两阶段的精细化流程:** 该方法包含数据空间分割和子空间数据合成两个核心阶段。在空间分割阶段,利用 LLM 确定分割标准并构建完整的空间分割树,确保了子空间的独特性和全面性。在数据合成阶段,LLM 根据路径描述在特定子空间内生成样本,保证了生成的样本高度契合子空间的特征。

📈 **显著的性能提升与可扩展性:** 实验结果表明,TreeSynth 在数学推理、代码生成、心理学等多个基准任务上均实现了显著的模型性能提升,平均提升幅度达到 10%,最高达 17%。更重要的是,该方法在大规模数据合成场景下展现出优秀的线性甚至超线性增长的可扩展性,为处理海量数据提供了有效解决方案。

⚖️ **数据平衡与多样性优化:** TreeSynth 不仅能从零合成数据,还能通过分析现有数据集在空间中的分布,识别样本不足的区域并进行数据增强,实现数据集的均衡化。同时,实验证明 TreeSynth 能够显著提升生成数据的多样性,t-SNE 可视化直观地展示了数据分布的均匀性和分散性。

💡 **未来展望与应用潜力:** TreeSynth 为数据合成领域开辟了新思路,尤其是在“一句任务描述生成海量数据”的应用上潜力巨大。未来研究可聚焦于自适应确定最优树深度、探索真实世界复杂场景(如 agent、多轮对话)下的应用,以及确定 TreeSynth 的最大可扩展规模。

2025-10-03 11:36 河南

TreeSynth为数据合成领域带来了全新的视角。

本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。

想象一下,你接手了一个新项目,需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。 相比之下,传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种,结果发现许多肥沃的土地被遗漏,而某些贫瘠的角落却种满了庄稼。

这正是当前数据合成领域面临的核心挑战:如何从 0 系统性地生成多样化、高质量的训练数据?现有方法往往受限于模型偏见、种子数据局限和低变种 prompt,导致合成数据缺乏多样性,分布不均匀。更为关键的是,随着数据规模的增加,这种问题会变得愈发严重。

基于这一挑战,香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发,通过层层分支将复杂的数据领域逐步细分,直到每个叶节点都代表一个独特且互不重叠的数据子空间,最终让整棵 "树" 枝繁叶茂,确保全面而均衡地覆盖整个知识领域。形象地讲,TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。

从决策树到数据空间:TreeSynth 的核心洞察

TreeSynth 的核心创新源于一个巧妙的类比:将数据合成问题映射到决策树的空间分割机制上。

在传统的机器学习中,决策树具有两个关键特性:互斥性(每个样本只能属于一个叶节点)和穷尽性(所有样本都必须分配到某个叶节点)。TreeSynth 巧妙地将这一机制迁移到数据合成领域:如果我们将整个任务的数据空间视为决策树的根节点,那么通过层层分割,我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。

这种方法带来了两大显著优势:

1. 多样性保证:不同叶节点的互斥性确保了跨子空间的变化,从而保证样本多样性

2. 全面覆盖:叶节点的穷尽性确保对全面数据的采样,防止样本坍塌

两阶段工作流程:分而治之的智慧

TreeSynth 采用两阶段的工作流程:数据空间分割和子空间数据合成。

阶段一:数据空间分割

这个阶段类似于决策树的构建过程,包含两个关键步骤:

1. 标准确定(Criterion Determination):对于任意数据空间,首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后,另一个 LLM 分析这些样本,确定一个核心标准,将样本最优地划分为互斥的属性值。

2. 子空间覆盖(Subspace Coverage):由于 pivot samples 数量有限,可能无法完全覆盖原始空间。因此,需要补充潜在的属性值,确保子空间能够穷尽覆盖整个数据空间。

通过递归应用这两个步骤,TreeSynth 构建出一个完整的空间分割树,将整个数据空间分解为众多互斥且互补的原子子空间。

阶段二:子空间数据合成

在每个叶节点(原子子空间)内,TreeSynth 收集从根节点到该叶节点的完整路径描述,然后指导 LLM 在该特定约束下生成样本。最终,通过汇集所有叶节点的数据,获得具有高多样性、均衡分布和全面覆盖的最终数据集。

超越合成:TreeSynth 引导的数据平衡

TreeSynth 的价值不仅在于从零开始的数据合成,还能优化现有数据集。通过为现有数据集构建空间分割树,每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此,对于样本过多的子空间进行随机下采样,而对于样本不足的子空间则利用 TreeSynth 进行数据增强,最终获得更加均衡和全面的数据分布。

案例分析:从抽象到具体

以 GSM8K 风格的数学问题生成为例,TreeSynth 的工作流程如下:

1. 根节点定义:整个数据空间被定义为 "GSM8K 风格的数学问题"

2. 首层分割:通过分析样本特征,确定 "数学运算类型" 作为第一层分割标准,将空间分为加减法、乘除法、开方、取模等子空间

3. 递归深化:对每个子空间继续分割,比如加减法子空间可能进一步按 "问题复杂度" 分割

4. 叶节点合成:在每个最终的原子子空间内生成具体的数学问题

这种系统性的分割确保了生成的数据集既具有全面的覆盖性,又保持了各个维度上的平衡分布。

实验验证:全方位性能提升

研究团队在数学推理(GSM8K、MATH)、代码生成(MBPP、HumanEval)和心理学(SimpleToM)等多个基准任务上进行了全面评估。

与基线方法的比较

实验对比了人工标注数据和三种代表性的 LLM 数据合成方法:

显著的性能提升

实验结果显示,TreeSynth 在所有基准测试中都取得了一致的性能提升:

更令人印象深刻的是,TreeSynth 展现出了优秀的可扩展性。随着数据规模的增加,模型性能呈现线性甚至更好的增长轨迹,这证明了该方法在大规模数据合成场景下的稳健性。

数据多样性的显著改善

除了下游任务性能,TreeSynth 在数据多样性指标上也显著超越基线方法,在某些测试中多样性提升高达 45%。同时,t-SNE 可视化也直观地展示了 TreeSynth 卓越的数据多样性,生成的数据在嵌入空间中分布更加均匀和分散。这直接验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性。

结语与展望

TreeSynth 为数据合成领域带来了全新的视角。通过将决策树的空间分割智慧迁移到数据生成任务中,它成功地解决了现有方法在多样性和覆盖性方面的不足。实验结果不仅验证了其在多个领域的有效性,更重要的是展现了其在大规模场景下的可扩展性。

这项工作的意义不仅在于提出了一种新的数据合成方法,更在于提供了一个系统性思考数据生成问题的新框架。正如一位园丁需要整体规划种植布局一样,模型的训练也需要系统性地设计数据分布。

未来值得探索的方向:

TreeSynth 开启了从 0 合成数据领域的新篇章,为构建更加多样化、全面覆盖的训练数据集提供了强有力的工具。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TreeSynth 数据合成 AI 机器学习 香港大学 香港中文大学 决策树 子空间划分 数据多样性 模型训练 Data Synthesis AI Machine Learning University of Hong Kong CUHK Decision Trees Subspace Partitioning Data Diversity Model Training
相关文章