Cnbeta 08月05日
Perplexity被指控抓取明确阻止AI抓取的网站
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人工智能初创公司Perplexity被指控无视网站的抓取限制,持续抓取明确表示不想被访问的内容。根据互联网基础设施提供商Cloudflare的研究,Perplexity通过更改机器人身份标识(用户代理)和网络标识(ASN)来规避网站的robots.txt文件设置,试图绕过阻止。Cloudflare表示,已在数万个域名和数百万次请求中观察到此活动,并已采取措施阻止Perplexity的机器人,同时推出了向AI爬虫收费的市场和免费的防爬取工具。Perplexity方面则否认指控,称Cloudflare的报告是“推销”,并表示相关截图内容并非其访问,甚至否认了文章中提到的机器人属于自家产品。

🤖 **Perplexity被指规避网站抓取限制**:Cloudflare的研究报告指出,AI初创公司Perplexity被观察到在抓取网站内容时,无视robots.txt文件中明确设置的阻止规则,并且试图隐藏其抓取活动。这表明Perplexity可能在未经网站明确许可的情况下收集数据。

💻 **规避技术的具体手段**:Cloudflare的研究人员发现,Perplexity通过改变其爬虫的“用户代理”(User Agent),即用于识别网站访问者的信号,以及更改其自治系统网络(ASN),来试图绕过网站设置的阻止机制。这种行为旨在使其爬取活动不被轻易识别和拦截。

🛡️ **Cloudflare的反制措施与立场**:作为互联网基础设施提供商,Cloudflare表示已将Perplexity的机器人从其验证列表中移除,并开发了新的技术来阻止其爬取行为。Cloudflare首席执行官马修·普林斯此前曾警告AI对互联网商业模式的冲击,并推出了向AI爬虫收费的市场以及防止数据被爬取的免费工具。

💬 **Perplexity方面的回应**:Perplexity发言人Jesse Dwyer驳斥了Cloudflare的报告,称其为“推销”,并表示报告中的截图并未显示任何内容被访问,甚至声称提到的机器人并非其产品。这显示了双方在这一事件上的立场存在显著差异。

📈 **AI抓取与数据获取的普遍性**:文章提到,Perplexity这类AI产品依赖于从互联网获取大量数据,而AI初创公司长期以来一直在未经许可的情况下抓取文本、图像和视频以支持其产品。这反映了AI行业在数据获取方面面临的伦理和法律挑战,以及网站试图通过robots.txt等方式进行反制的努力,但效果不一。

据互联网基础设施提供商 Cloudflare 称,人工智能初创公司 Perplexity 正在抓取并抓取那些明确表示不想被抓取的网站的内容。

周一,Cloudflare发布研究报告称,其观察到这家人工智能初创公司忽略了阻止,并隐藏了其抓取和爬取活动。Cloudflare 的研究人员写道,这家网络基础设施巨头指责 Perplexity 在试图抓取网页时隐藏了其身份,“试图绕过网站的偏好设置”。

Perplexity 等 AI 产品依赖于从互联网上获取大量数据,而 AI 初创公司长期以来一直在未经许可的情况下从互联网上抓取文本、图像和视频,以使其产品正常运行。近年来,一些网站试图通过使用网络标准 Robots.txt 文件进行反击,该文件会告知搜索引擎和 AI 公司哪些页面可以被索引,哪些页面不应该被索引,但迄今为止,这些努力的效果好坏参半。 

Perplexity 似乎有意通过改变其机器人的“用户代理”(即通过设备和版本类型识别网站访问者的信号)来规避这些阻止;此外,据 Cloudflare 称,Perplexity 还改变其自治系统网络(ASN),本质上是一个用于识别互联网上大型网络的数字。 

Cloudflare 在帖子中写道:“我们在数万个域名和每天数百万个请求中观察到了这种活动。我们能够通过机器学习和网络信号的组合来识别这个爬虫。” 

Perplexity 发言人 Jesse Dwyer 驳斥了 Cloudflare 的博客文章,称其为“推销”。他在一封电子邮件中补充道,文章中的截图“显示没有内容被访问”。在后续邮件中,Dwyer 声称 Cloudflare 博客中提到的机器人“甚至不是我们的”。

Cloudflare 表示,他们最初注意到这种行为是在其客户抱怨 Perplexity 仍在抓取和抓取他们的网站内容后,尽管他们在 Robots 文件中添加了规则,并专门屏蔽了 Perplexity 已知的机器人程序。Cloudflare 表示,他们随后进行了测试检查,并确认 Perplexity 确实绕过了这些屏蔽。 

Cloudflare 表示:“我们观察到,Perplexity 不仅使用其声明的用户代理,而且还使用通用浏览器,当其声明的爬虫程序被阻止时,该浏览器旨在在 macOS 上模拟 Google Chrome。”  

该公司还表示,已将 Perplexity 的机器人从其验证列表中删除,并添加了新的技术来阻止它们。 

Cloudflare 最近公开反对人工智能爬虫。上个月,Cloudflare宣布推出一个市场,允许网站所有者和出版商向访问其网站的人工智能爬虫收费。Cloudflare 首席执行官马修·普林斯当时就发出警告,称人工智能正在破坏互联网的商业模式,尤其是出版商的商业模式。去年,Cloudflare 还推出了一款免费工具,以防止机器人爬取网站数据来训练人工智能。 

这并不是 Perplexity 第一次被指控未经授权进行抓取。 去年,《连线》杂志等新闻媒体指控 Perplexity 抄袭其内容。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Perplexity Cloudflare AI抓取 Robots.txt 数据隐私
相关文章