index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
Fastly最新报告揭示,AI机器人正深刻改变网站流量结构。虽然80%的AI流量来自爬虫,但模型推理阶段的实时抓取才是对基础设施的真正挑战,其高并发请求甚至可能引发类似DDoS的冲击。Meta、Google、OpenAI是主要流量贡献者,其中Meta占比过半。实时抓取方面,OpenAI的ChatGPT-User和OAI-SearchBot占主导。区域和行业流量构成也呈现差异,北美以爬虫为主,而EMEA地区实时抓取占比更高;教育和媒体娱乐行业受实时查询影响更大,而电商、医疗等则以爬虫为主。为应对这些趋势,网站需通过robots.txt、X-Robots-Tag明确爬虫权限,并结合速率限制、来源挑战等技术手段进行防护。
🤖 AI机器人流量结构变化显著:报告指出,尽管80%的AI机器人流量来自爬虫,但对网站基础设施构成更大压力的实际上是模型推理阶段的实时抓取。这些实时抓取工具在高并发时,每分钟可对同一网站发起高达3.9万次请求,远超训练爬虫的每分钟约1千次,可能对未防护网站造成类似DDoS的冲击。
🌐 主要AI流量来源及其分布:Meta、Google和OpenAI是AI爬虫流量的三大来源,合计占比高达95%,其中Meta贡献52%,Google占23%,OpenAI约20%。在实时抓取工具流量方面,OpenAI的ChatGPT-User和OAI-SearchBot占据了近98%的份额,显示出其在AI交互应用中的主导地位。
🌍 区域与行业流量特征分化:北美网站接收的AI流量近90%为爬虫,而欧洲、中东与非洲(EMEA)地区实时抓取工具占比达59%。在行业层面,教育和媒体娱乐行业以实时抓取工具为主(分别为68%和54%),更容易受到高并发查询的影响;而电商、医疗和公共部门则超过90%的流量为爬虫。
🔍 内容抓取策略多样化:OpenAI的GPTBot虽然不是最大的流量来源,但其覆盖范围最广,触及95%的独立网站,采取的是广度策略。Meta则以深度索引为主,流量庞大但命中网站数较少。Common Crawl的CCBot则以规律性抓取为特色,覆盖约63%的AI爬虫触及网站,常用于学术研究。
📊 训练数据分布不均及其影响:报告强调,AI模型的训练数据在全球范围内的分布并不均衡,北美地区的数据占比较高。在亚太地区,网站数据主要由日本的软银和NICT索引,这可能导致AI模型在处理该地区信息时,其展现出的信息样貌更偏向日本的特点。
雲端業者Fastly在2025第二季的Threat Insights報告指出,人工智慧機器人正在改變網站流量結構,雖然人工智慧機器人流量的80%來自爬蟲,不過,真正對基礎設施造成壓力的是來自模型推理階段的即時擷取。即時截取工具在高峰甚至可對同一網站發出每分鐘3.9萬次請求,遠高於最大訓練爬蟲約每分鐘1千次,可能對未加以防護的網站形成類似DDoS的衝擊。
根據Fastly的資料,人工智慧爬蟲流量主要由Meta、Google與OpenAI三大業者產生,合計占比高達95%,其中Meta單獨貢獻了52%,Google為23%,OpenAI則約20%。在即時擷取方面,OpenAI的ChatGPT-User與OAI-SearchBot為絕對大宗,合計占即時截取工具流量近98%。
以區域來看,北美網站接收的人工智慧流量接近90%屬於爬蟲,歐洲、中東與非洲地區(EMEA)情況則相反,即時截取工具占59%,亞太(APAC)與拉丁美洲以爬蟲為主,但比例相對較低。產業面也呈現分化,教育與媒體娛樂流量以即時截取工具為主,分別為68%與54%,更容易受到即時查詢的高並行影響,相較之下,電商、醫療與公共部門超過90%流量為爬蟲。
在內容來源方面,OpenAI的GPTBot雖不是最大流量來源,但覆蓋範圍最廣,以觸及的獨立網站數計算,其覆蓋率高達95%,採取的是廣度策略,而Meta策略則是深度索引,流量龐大但命中網站數較少。
Common Crawl的CCBot特色則為每月兩星期的規律抓取,覆蓋約63%的人工智慧爬蟲觸及網站,長期被學術界與小型團隊用於研究資料蒐集。整體而言,訓練資料仍明顯偏重北美,在亞太地區,網站資料則主要由日本的軟銀(SoftBank)與NICT索引,這顯示亞太資料並非平均分布,而是傾向集中於日本,進一步影響模型可能展現出較接近日本的資訊樣貌。
這些趨勢代表網站需要在政策與技術上雙重準備,策略層面上,官方建議,可透過robots.txt與X-Robots-Tag明確宣告允許或拒絕的範圍,並要求人工智慧爬蟲提供可驗證的身分資訊,如公開IP與反向DNS。技術層面則需導入速率限制、來源挑戰與即時監測,確保能將正常的自動化與惡意或偽裝流量加以區隔。
Fastly強調,這些結論來自其對超過13萬個應用與API的流量分析樣本,每月平均涵蓋6.5兆請求。