一觉起来,收到一堆 IDC 通知告警,服务器好像炸了,发现某个子站莫名其妙的被一堆爬虫轮番压榨,有点不堪负重,看了下都是这些家伙
特别有几个战犯,好家伙不约而同一起爬,一分钟几千次的请求,点名 Claude、Bing、Amazon
是我太温柔了吗,不是的, Robots 本来就是君子协定,而且即使 UA 管控,使用白名单模式,非白名单的直接 403,部分蜘蛛也会耍花招换 UA 的,然后我也没想到要限制频率,所以就大大方方全部写允许了,结果就......,服务器配置也有点低,上面还跑了一些其他资源密集型应用
总结:就谷歌和 OpenAI 还会收敛点,还有那个没见过的 DotBot
以后也长期更新一下这个列表
必应
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Claude
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
Amazon
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
OpenAI
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Google
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.7103.92 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Moz (这个没见过,查了下是一个网站 SEO 相关的机器人)
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com