一觉起来,收到一堆 IDC 通知告警,天塌了,服务器好像炸了,发现某个子站莫名其妙的被一堆爬虫轮番压榨,有点不堪负重,看了下都是怎么都是 AI 相关的爬虫
特别有几个战犯,好家伙不约而同一起爬,一分钟几千次的请求,点名 封号大王 Claude、Bing、Amazon......

是我太温柔了吗,不是的, Robots 本来就是君子协定,而且即使 UA 管控,使用白名单模式,非白名单的直接 403,部分蜘蛛也会耍花招换 UA 的,然后我也没想到要限制频率,所以就大大方方全部写允许了,结果就......,服务器配置也有点低,上面还跑了一些其他资源密集型应用

看样子得给点脸色看看了,先本地简单弄了下,emm...,先礼后兵

  • 本地

    #  ban
      location ~* ^/robots\.txt$ {
       add_header X-Robots-Tag  "none" always;
       default_type text/plain;
       return 200 "User-Agent: *\nDisallow: /\n";
       }
    

如有必要后期搞个 WAF 进一步补充过滤,还是基于 AI 的自动识别学习、喂养自己,要用魔法来打败魔法
还有一件事,云上也得看下

  • 云端,先看情况,有必要再后续补充
    UA 实行白名单机制 / 严格模式 / 频率限制 / 拉黑大陆以外的网络请求

总结:就谷歌和 OpenAI 还会收敛点,还有各种乱七八糟的 UA 爬虫(AI?)
以后也长期更新一下这个列表


放了一些日志里面的 UA

最后修改:2025 年 06 月 18 日
如果觉得我的文章对你有用,请随意赞赏