偷数据的AI公司被抓到了

AI还在想尽办法搜刮互联网数据，这一回是偷偷利用互联网档案馆？！

最近，Reddit平台发现，AI公司正利用Wayback Machine的存档，巧妙绕过常规的数据获取限制，偷偷扒取大量数据用于模型训练。

互联网档案馆的Wayback Machine是公益性的数字存档工具，旨在保存网页历史版本。

AI公司发现通过借助Wayback Machine开放性的特点抓取Reddit的历史数据，既无需遵守Reddit的付费、合规协议等政策，又能获取训练所需的大量内容。

于是，互联网档案馆就成了AI公司的“最佳数据后门”。

Reddit坚决抵制数据滥用

前情提要，此前Reddit为保护数据权益，对AI公司的直接抓取数据行为设置了严格限制。

若公司愿意付费则愿意提供数据，比如Reddit与谷歌达成数据交易，仅向这种付费合作方开放数据，还对搜索引擎爬取数据设置付费门槛。

但对于未经许可的数据抓取行为，尤其是AI训练滥用的情况，Reddit坚决抵制。

这也是其2023年进行API更改的原因：由于AI公司滥用API进行数据抓取用于模型训练，于是它们调整了API政策导致部分第三方应用关闭。

此外，Reddit还与OpenAI有合作，然而在6月，Reddit却起诉了Anthropic。

原因是Anthropic在宣称停止抓取数据后仍在Reddit上抓取。

这正是为啥AI公司开始想歪招了——

Internet Archive即互联网档案馆，它是一个非营利性数字图书馆，致力于提供数字资料的永久性免费存储及获取服务。

它的数据一部分由公众上传，大部分由自带的网络爬虫自动搜集，尽可能保存公开的网页信息。

Wayback Machine是Internet Archive最广为人知的服务，能抓取并保存大量网页，用户借助它可查看网页的历史快照。

它自1996年开始缓存网页，在2001年推出时已存档超100亿个页面。

Wayback Machine作为一个公益性的数字存档工具，本身就具有开放性，但这也给了部分AI公司可乘之机。

AI公司发现通过Wayback Machine抓取Reddit的历史数据，既无需遵守Reddit的平台政策（如付费、合规协议），又能获取训练所需的大量内容，于是就利用这一漏洞开始了违规“曲线获取数据”的行为。

这些AI公司的爬虫程序在Wayback Machine的存档中肆意穿梭，抓取Reddit上的帖子、评论、用户资料等关键信息。

这种“曲线抓取数据”的行为，不仅侵犯了平台的权益和用户的隐私，还打破了数据获取与使用的规则平衡。

Reddit发言人Tim Rathschmidt透露，尽管互联网档案馆旨在开放网络，但AI公司的此类抓取行为严重违反了平台政策，危及用户隐私，还可能导致已删除内容的泄露。

Reddit并非唯一受害者，Facebook（现Meta）、Twitter（现X）等均曾明确限制第三方爬虫抓取用户内容，尤其禁止将数据用于AI训练，但仍有AI公司试图通过缓存站点、镜像网站等间接渠道获取数据。

面对这一乱象，Reddit已经宣布限制Wayback Machine对其内容进行索引，仅允许抓取主页，帖子详情、评论及用户资料等页面均被禁止访问。

为此，Wayback Machine的负责人Mark Graham在接受采访时表示：

我们与Reddit有着长期的合作关系，并且将继续就此事进行讨论。

实际上不只Wayback Machine，有网友发现Reddit对任何非住宅IP都有数据封锁。

但也有人认为这是Reddit是试图通过数据交易获取利益，但一手交钱一手交数据看上去也挺公平的……

不管怎么说，数据所有权、使用边界与AI训练需求之间的冲突正在悄悄升级。

参考链接：
[1]https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
[2]https://news.ycombinator.com/item?id=44866698

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🎉 希望了解AI产品最新趋势？

量子位智库「AI 100」2025上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考👇

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题，请及时与我们联系删除