网络爬虫 UA 统计

2025 年 06 月 10 日

377 次浏览

2245字数

一觉起来，收到一堆 IDC 通知告警，天塌了，服务器好像炸了，发现某个子站莫名其妙的被一堆爬虫轮番压榨，有点不堪负重，看了下基本都是 AI 相关的爬虫
特别有几个战犯，好家伙不约而同一起爬，一分钟几千次的请求，点名封号大王 Claude、Bing、Amazon......

是我太温柔了吗，不是的， Robots 本来就是君子协定，而且即使 UA 管控，使用白名单模式，非白名单的直接 403，部分蜘蛛也会耍花招换 UA 的，然后我也没想到要限制频率，所以就大大方方全部写允许了，结果就......，绝对不是服务器配置过低！

看样子得给点脸色看看了，先本地简单弄了下，emm...，先礼后兵

本地

#  ban
  location ~* ^/robots\.txt$ {
   add_header X-Robots-Tag  "none" always;
   default_type text/plain;
   return 200 "User-Agent: *\nDisallow: /\n";
   }

如有必要后期搞个 WAF 进一步补充过滤，还是基于 AI 的自动识别学习、喂养自己，要用魔法来打败魔法，还有云上

云端
UA 实行白名单机制 / 严格模式 / 频率限制 / IP 地区管控 / Referer

总结：就谷歌和 OpenAI 还会收敛点，还有各种乱七八糟的 UA 爬虫（AI？）
以后也长期更新一下这个列表

放了一些日志里面的 UA

必应

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36

Claude

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)

Amazon

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36

OpenAI，有多个，每行一个

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

Meta，有多个，每行一个

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

Yandex

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Google

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.7103.92 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Moz （这个没见过，查了下是一个网站 SEO 相关的机器人）

Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com

MJ12Bot

Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)

发表评论 取消回复 使用 cookie 技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

网络爬虫 UA 统计

发表评论取消回复
使用 cookie 技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款