TreeSynth：通过树引导子空间划分实现从零开始的数据合成

2025-10-03 11:36 河南

TreeSynth为数据合成领域带来了全新的视角。

本文第一作者王升，陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧，以及香港中文大学的薛博阳、江继越。

想象一下，你接手了一个新项目，需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想：“如何通过一句任务描述生成海量数据，完成模型训练？” 同时，大规模 scalibility 对合成数据的多样性提出了新的要求。相比之下，传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种，结果发现许多肥沃的土地被遗漏，而某些贫瘠的角落却种满了庄稼。

这正是当前数据合成领域面临的核心挑战：如何从 0 系统性地生成多样化、高质量的训练数据？现有方法往往受限于模型偏见、种子数据局限和低变种 prompt，导致合成数据缺乏多样性，分布不均匀。更为关键的是，随着数据规模的增加，这种问题会变得愈发严重。

基于这一挑战，香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发，通过层层分支将复杂的数据领域逐步细分，直到每个叶节点都代表一个独特且互不重叠的数据子空间，最终让整棵 "树" 枝繁叶茂，确保全面而均衡地覆盖整个知识领域。形象地讲，TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。

论文标题: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning

论文链接: https://arxiv.org/abs/2503.17195

项目主页: https://github.com/cpa2001/TreeSynth

从决策树到数据空间：TreeSynth 的核心洞察

TreeSynth 的核心创新源于一个巧妙的类比：将数据合成问题映射到决策树的空间分割机制上。

在传统的机器学习中，决策树具有两个关键特性：互斥性（每个样本只能属于一个叶节点）和穷尽性（所有样本都必须分配到某个叶节点）。TreeSynth 巧妙地将这一机制迁移到数据合成领域：如果我们将整个任务的数据空间视为决策树的根节点，那么通过层层分割，我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。

这种方法带来了两大显著优势：

1. 多样性保证：不同叶节点的互斥性确保了跨子空间的变化，从而保证样本多样性

2. 全面覆盖：叶节点的穷尽性确保对全面数据的采样，防止样本坍塌

两阶段工作流程：分而治之的智慧

TreeSynth 采用两阶段的工作流程：数据空间分割和子空间数据合成。

阶段一：数据空间分割

这个阶段类似于决策树的构建过程，包含两个关键步骤：

1. 标准确定（Criterion Determination）：对于任意数据空间，首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后，另一个 LLM 分析这些样本，确定一个核心标准，将样本最优地划分为互斥的属性值。

2. 子空间覆盖（Subspace Coverage）：由于 pivot samples 数量有限，可能无法完全覆盖原始空间。因此，需要补充潜在的属性值，确保子空间能够穷尽覆盖整个数据空间。

通过递归应用这两个步骤，TreeSynth 构建出一个完整的空间分割树，将整个数据空间分解为众多互斥且互补的原子子空间。

阶段二：子空间数据合成

在每个叶节点（原子子空间）内，TreeSynth 收集从根节点到该叶节点的完整路径描述，然后指导 LLM 在该特定约束下生成样本。最终，通过汇集所有叶节点的数据，获得具有高多样性、均衡分布和全面覆盖的最终数据集。

超越合成：TreeSynth 引导的数据平衡

TreeSynth 的价值不仅在于从零开始的数据合成，还能优化现有数据集。通过为现有数据集构建空间分割树，每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此，对于样本过多的子空间进行随机下采样，而对于样本不足的子空间则利用 TreeSynth 进行数据增强，最终获得更加均衡和全面的数据分布。

案例分析：从抽象到具体