AI前线 09月17日
Hugging Face 发布全球最大 PDF 公开语料库 FinePDFs
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face 正式推出了 FinePDFs,这是全球规模最大的纯 PDF 公开语料库,包含 1733 种语言的 4.75 亿份文档,总计约 3 万亿 Token。这一 3.65TB 的数据集为开放训练数据集树立了新标杆,使得以往因复杂和高昂成本而难以处理的资源得以利用。与依赖 HTML 的数据集不同,PDF 文档因其在法律、学术和技术写作领域的高质量、特定领域内容而具有独特优势。FinePDFs 结合了文本提取、OCR 和数据清洗技术,有效解决了 PDF 文本提取的挑战,并涵盖了广泛的语言,其中英语占主导地位,但同时也包含了大量小语种。评估显示,FinePDFs 在模型训练中表现优异,可与先进的 HTML 数据集媲美,并能通过结合使用进一步提升性能,证明了 PDF 数据互补知识的价值。该数据集免费提供,并记录了其详细处理流程,对数据透明度做出了贡献。

📚 **FinePDFs:全球最大的纯 PDF 公开语料库** Hugging Face 发布了 FinePDFs,一个包含 1733 种语言、4.75 亿份文档(约 3 万亿 Token)的超大规模数据集。这一 3.65TB 的数据集旨在解锁此前因处理难度和成本过高而难以利用的 PDF 文档资源,为 AI 模型训练提供了前所未有的数据支持。

💡 **PDF 数据的独特价值与提取挑战** 与常见的 HTML 数据集不同,PDF 文档往往包含更高质量、更特定领域的文本,尤其在法律、学术和技术写作领域。然而,从 PDF 中准确提取文本一直是个难题,涉及嵌入式文本、OCR 需求以及复杂的格式解析。FinePDFs 通过结合先进的文本提取、OCR 技术和数据后处理(如去重、语言识别、PII 匿名化)来解决这些挑战,确保了数据质量和可用性。

🌍 **广泛的语言覆盖与评估验证** FinePDFs 涵盖了极其广泛的语言,英语占主导,但也有大量小语种的贡献,体现了其包容性。在模型训练评估中,FinePDFs 的表现与顶尖的 HTML 数据集相当,并且将两者结合使用能显著提升模型性能,证明了 PDF 数据对丰富和补充现有知识的重要性。该数据集的发布和详细处理流程的公开,被视为数据透明度上的一个重要里程碑。

2025-09-17 14:15 浙江

Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。

作者 | Robert Krzaczyński

译者 | 平川

Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于复杂和昂贵而无法处理的资源。

尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。

为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。

该数据集涵盖了广泛的语言,其中英语占比最高,有超过 1.1 万亿个 Token。西班牙语、德语、法语、俄语和日语各自贡献了超过 1000 亿个 Token。它也能代表一些比较小的语种,有 978 种语言贡献了超过 100 万个 Token。

为了评估 FinePDFs,Hugging Face 在该数据集的子集上训练了 1.67B 参数模型。结果显示,FinePDFs 的表现几乎与 SmolLM-3 Web 相当,后者是一个最先进的 HTML 数据集。更重要的是,在基准测试中,将两者相结合显著提升了性能,强化了 PDF 可以带来互补知识的观点。

对评估结果的强调立即引起了社区的质疑。在 LinkedIn 上,数据科学家 Arthur Wuhrmann 问道:

怎么评估的?得分是多少?

Hugging Face 机器学习工程师 Hynek Kydlíček 回应 说,团队追踪了各种基准测试中正确选择的概率。这表明他们关注的是基于概率的报告,而不是单一的分数。

研究人员指出,该数据集有推进长上下文训练的潜力,因为 PDF 文档通常比网页长得多。有些 AI 社区成员将其视为数据透明度的里程碑,因为 Hugging Face 不仅发布了数据集,还记录了其处理流程,从 OCR 检测到去重。

FinePDFs 遵循开放数据共享署名许可,可免费用于研究和开发。该数据集托管在 Hugging Face Hub 上,可通过 datasets、huggingface_hub 和内部处理库 Datatrove 访问。

原文链接:

https://www.infoq.com/news/2025/09/finepdfs/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

会议推荐

10 月 23 - 25 日,QCon 上海站即将召开,限时 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FinePDFs Hugging Face PDF 数据集 公开语料库 大规模语言模型 AI 训练数据 自然语言处理 数据科学 FinePDFs Hugging Face PDF Dataset Public Corpus Large Language Models AI Training Data Natural Language Processing Data Science
相关文章