一觉起来,收到一堆 IDC 通知告警,天塌了,服务器好像炸了,发现某个子站莫名其妙的被一堆爬虫轮番压榨,有点不堪负重,看了下都是怎么都是 AI 相关的爬虫
特别有几个战犯,好家伙不约而同一起爬,一分钟几千次的请求,点名 封号大王 Claude、Bing、Amazon......
是我太温柔了吗,不是的, Robots 本来就是君子协定,而且即使 UA 管控,使用白名单模式,非白名单的直接 403,部分蜘蛛也会耍花招换 UA 的,然后我也没想到要限制频率,所以就大大方方全部写允许了,结果就......,服务器配置也有点低,上面还跑了一些其他资源密集型应用
看样子得给点脸色看看了,先本地简单弄了下,emm...,先礼后兵
本地
# ban location ~* ^/robots\.txt$ { add_header X-Robots-Tag "none" always; default_type text/plain; return 200 "User-Agent: *\nDisallow: /\n"; }
如有必要后期搞个 WAF 进一步补充过滤,还是基于 AI 的自动识别学习、喂养自己,要用魔法来打败魔法
还有一件事,云上也得看下
- 云端,先看情况,有必要再后续补充
UA 实行白名单机制 / 严格模式 / 频率限制 / 拉黑大陆以外的网络请求
总结:就谷歌和 OpenAI 还会收敛点,还有各种乱七八糟的 UA 爬虫(AI?)
以后也长期更新一下这个列表
放了一些日志里面的 UA
必应
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Claude
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
Amazon
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
OpenAI
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
Meta,有多个,每行一个
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Google
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.7103.92 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Moz (这个没见过,查了下是一个网站 SEO 相关的机器人)
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com