cnBeta全文版 10月23日 14:03
Reddit 起诉数据抓取公司,保护用户数据隐私
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

知名论坛Reddit近期对Perplexity、SerApi、OxyLabs和AWMProxy等公司提起法律诉讼,指控这些公司未经授权抓取并非法使用Reddit上的海量用户数据。Reddit认为其用户生成的内容是宝贵的资产,可用于训练人工智能模型。Perplexity主要将抓取的数据用于训练自身AI模型,而其他公司则充当“互联网掮客”,将数据出售给AI公司。Reddit还指出Perplexity公司未能遵守robots.txt协议,无视网站禁止爬虫抓取的规定。尽管Perplexity声称未使用Reddit数据,但测试显示其AI仍引用Reddit内容,引发质疑。Perplexity则回应称,尚未收到诉讼通知,但将捍卫用户获取公共知识的权利,并以负责任的态度提供事实性回答。

⚖️ Reddit已对Perplexity、SerApi、OxyLabs和AWMProxy等多家公司提起法律诉讼,指控其未经授权抓取并非法使用Reddit平台上的海量用户数据。Reddit视其用户生成的内容为宝贵资产,可用于训练AI模型。

🔍 Perplexity主要将抓取的数据用于训练自家的人工智能模型,而SerApi、OxyLabs和AWMProxy则被指控扮演“互联网掮客”的角色,将抓取的数据出售给其他AI公司,这种行为被视为非法数据抓取。

🚫 Reddit特别指出Perplexity公司未能遵守robots.txt协议,即使网站明确禁止其爬虫抓取,Perplexity的爬虫仍会忽略这些限制并继续抓取数据。robots.txt协议被认为是网络爬虫的一种“君子协定”。

💬 尽管Perplexity声称未使用Reddit数据,但实际测试显示其聊天机器人在回答中仍会引用Reddit的内容,这与其声明相悖。Perplexity的回应是尚未收到诉讼通知,但将争取用户自由、公平获取公共知识的权利,并以负责任的态度提供事实回答。

知名互联网论坛 Reddit 日前宣布对 Perplexity、SerApi、OxyLabs、AWMProxy 等公司提起法律诉讼,指控这些公司未经允许抓取 Reddit 论坛上的数据并进行非法使用。

此前 Reddit 已经起诉 Claude AI 模型开发商 Anthropic 指控后者未经授权抓取数据训练 AI 模型,对 Reddit 来说现在其海量帖子和用户数据就是最宝贵的财富,这可以出售给 AI 公司用来训练模型。

Perplexity 抓取数据主要是为了训练自己的人工智能模型,其他三家公司则侧重于抓取数据出售给其他 AI 公司,这也算是另类互联网掮客,通过各种技术手段突破网站限制非法抓取数据,然后再将其出售给 AI 公司。

另外 Perplexity 还被发现不遵守 robots.txt 协议,也就是即便网站在文件中明确说明禁止其爬虫抓取,也会被 Perplexity 的爬虫忽略并继续抓取数据,robots.txt 属于君子协定。

目前 Reddit 已经向 Perplexity 发出停止令,要求后者停止未经授权抓取 Reddit 论坛中的任意内容,不过 Perplexity 称并未使用 Reddit 数据,但测试显示 Perplexity 的聊天机器人回答中仍然会继续引用 Reddit 的内容,显然 Perplexity 在说谎。

不过 Perplexity 也给出自己的回应:Perplexity 尚未收到诉讼通知,但我们将始终积极争取用户自由、公平获取公共知识的权利。我们始终秉承原则和负责任的态度,利用精准的人工智能提供事实回答,绝不容忍任何威胁开放性和公共利益的行为。

查看评论

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Reddit 数据抓取 AI模型训练 法律诉讼 数据隐私 robots.txt
相关文章