新智元报道
新智元报道
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
数据是AI的粮食,「一顿不吃饿得慌」,数据供给充足,模型才能全力以赴。我们如今用着的强大模型,背后使用了互联网上的海量数据用于训练。随着硬件与成本的限制,研究者逐渐意识到:光靠堆数据已经难以为继,能否更好地利用数据,才是决定未来性能的关键。然而,有三个棘手的问题一直难以解决:第一,公网上可供使用的数据正在逐渐枯竭,预计十年内就会用完。第二,大量用户生成的内容虽然存在,但含有隐私信息、攻击性语言或版权内容,无法直接使用。第三,合成数据生成虽是出路,但往往存在多样性不足、与真实数据差距大等问题。为了解决这些问题,谷歌DeepMind研究团队于昨日公开发表了一篇研究论文:《Generative Data Refinement: Just Ask for Better Data》。论文地址:https://arxiv.org/pdf/2509.08653这篇论文的第一作者是华人Minqi Jiang,今年也从DeepMind跳槽去了最近处于风口浪尖的Meta Superintelligence Labs。回到论文。这篇论文提出了一种新方法:生成式数据精炼(Generative Data Refinement, GDR)。它的核心思路是——不直接生成全新的数据,而是利用大模型把原始数据「净化」、改写的同时保留有用信息,去掉隐私或有害部分。换句话说,GDR就像一个「数据清洗器」,既能让脏数据变干净,又能保持原本的知识价值。对生成结果运行验证(例如再跑一次PII检测、或用毒性分类器评估),过滤掉不合格的结果,确保数据集安全。最后一步,得到精炼数据集D′,可作为训练数据反复使用。数据多样性依然保持住了,甚至优于直接合成数据。这种方法有三大优势:
- 继承真实数据的多样性,因为每条合成数据都「锚定」在一个真实样本上。避免模式坍缩,不像单纯的合成数据那样,容易收敛到几种套路化表达。适配不同任务,只需换提示词或微调,就能针对匿名化、去毒化等不同场景。
当然,GDR的代价是需要额外的计算。最坏情况下,相当于再训练1/3次模型。但一旦得到干净数据,它可以反复使用,长期来看非常划算。为了验证GDR的效果,文章进行了三个不同角度的实验。
UMAP可视化显示,精炼数据的分布依旧接近真实数据,而纯合成数据出现了明显的模式坍缩。
研究者让模型在去毒化数据上微调后,发现它仍然能保留世界知识,并且生成风格更接近人类。检测系统甚至有31%的概率分不清它和人类对话。
实验结果表明,GDR清洗有害数据的同时,也保留了其中包含的知识,「出淤泥而不染」,「择善而从」。
文章原文
