主要观点总结
文章主要讲述了程序员鱼皮如何发现并揪出一个试图爬取他们刷题网站“面试鸭”题目的用户,并分享了如何快速定位爬虫和攻击者的方法,包括识别爬虫的特征、请求频率和模式,以及如何通过日志和监控来定位攻击者。同时,文章也给出了一些系统开发时的建议。
关键观点总结
关键观点1: 事件概述
文章描述了一起程序员面试刷题网站的题目被爬取的事件,并介绍了发现、定位攻击者的过程。
关键观点2: 如何定位爬虫和攻击者
通过系统云服务的监控查看请求客户端IP和URL路径访问排行,分析请求情况,识别出爬虫和攻击者。
关键观点3: 识别爬虫的方法
看爬虫的特征、请求频率和模式。哪怕是细微的区别,在监控面前也会显露无疑。
关键观点4: 如何通过日志找到真凶
通过查看IP访问请求的日志记录,在业务服务器的日志中根据IP和时间段筛选,定位到具体的用户。
关键观点5: 系统开发时的建议
做好请求的日志记录,对请求经过的每个环节进行监控,养成看监控的习惯,给获取重要数据的接口增加更多的信息记录。
文章预览
大家好,我是程序员鱼皮。昨天逮到一个爬取我们 程序员面试刷题网站 - 面试鸭 的题目的用户,小伙子可能自以为很聪明,实际上手法非常拙劣!我一分钟不到就把他揪出来了。 下面聊一聊我是怎么做的,也借这个事情,给大家分享一下如何快速定位爬虫和攻击者的方法。 如何纠出攻击者? 发现猫腻 生活中有人偷了你的东西,肯定要看监控。抓爬虫用户也是一样,先看监控。 像我是怎么发现网站被爬了呢?首先我们系统内部有一套识别爬虫的策略,其次我们每天都会关注网站的流量情况,有些异常情况一眼便可看出。 比如这次事件当天,我先通过系统云服务的监控看了下近 6 个小时向我们发送请求的客户端 IP,除去第一个是我们自己的 IP 外,其他几个 IP 的请求数都远超我们的业务平均值,显然这些 IP 不对劲! 那这些 IP 都在请求什么资源
………………………………