V2EX 10月17日 11:35
服务器异常访问追踪与处理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

公司一台服务器近日遭遇访问量暴增,官网页面被来自阿里巴巴IP段的爬虫大量抓取,疑似用于训练语料。分析日志发现,所有请求集中于同一页面,且UA伪装成普通浏览器。问题根源在于关键词插入代码生成的超链接结构错误,导致模板引擎忽略无效路径,引发无限递归访问。目前已拦截该IP段访问,但仍有零星请求。该问题导致每日产生近30GB日志。

📈 **流量异常暴增与初步排查**:服务器访问量在短时间内激增数倍,且所有请求集中于官网的同一页面,均来自阿里巴巴的8.160.0.0/16 IP段。请求的User-Agent伪装成普通浏览器,而非搜索引擎爬虫,初步判断为外部爬虫行为,可能用于抓取训练语料。

🔗 **根源分析:链接结构错误引发递归**:问题源于后台PHP代码中关键词插入机制的bug,生成的超链接`href`属性内容不完整且包含无效字符,例如“关键词。关键词。”。网站模板引擎对这类无效URL路径的处理方式是忽略,导致每次错误链接访问都能返回原页面,形成无限循环抓取。

🚫 **紧急缓解措施与持续观察**:已通过防火墙拦截了来自8.160.0.0/16 IP段的所有访问请求,成功阻止了绝大部分的异常流量。尽管如此,仍观察到每秒数百次的请求,表明对方公司尚未完全停止抓取或正在调整策略。需要持续监控并考虑更长远的解决方案。

开头先声明一下,我只是个菜鸡前端,服务器环境是用宝塔搭建的,后台是 php 写的,公司规模超级小没有专业运维

最近发现公司的一台服务器访问量暴增了几个数量级。那台服务器上放的是公司的官网,上面发布的内容都是些增加 SEO 的没有任何营养的东西,按理说不该有这么大的流量。

查了下日志,所有请求都在访问同一个页面,而且全部来自 8.160.0.0/16 这个属于阿里巴巴的 IP 段。推测可能是某家公司部署的爬虫在抓取训练语料之类的。它的请求 UA 也不是搜索引擎的蜘蛛,而是伪装成普通浏览器:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 。

目前这个页面已经被爬取了超过两千万次。检查后发现,问题出在插入关键词的代码上,生成的超链接结构类似:关键词<a href="&gt;关键词&lt;/a&gt;关&lt;a href=">关键词</a>。dom 解析后,会把 href 里的内容拼接到当前 URL 后面访问。而偏偏这个官网使用的模板引擎会忽略 URL 中无效的路径,导致访问这个错误链接时依然会返回同一个页面,于是形成了无限递归访问。

现在光是这个页面每天产生的日志就接近 30GB 。我现在已经拦截了所有来自这个 IP 段的访问,但是看防火墙还是有每秒几百次的请求,不知道这家公司什么时候才会发现

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

服务器安全 爬虫 日志分析 流量异常 URL漏洞 IP拦截 PHP 宝塔 官网 Server Security Web Crawler Log Analysis Traffic Anomaly URL Vulnerability IP Blocking PHP Plicy Official Website
相关文章