Web 如果搜索引擎蜘蛛正在攻击我的网站,我该怎么办?

Web 如果搜索引擎蜘蛛正在攻击我的网站,我该怎么办?,web,search-engine,web-crawler,Web,Search Engine,Web Crawler,我运行了一个小型Web服务器,最近它被一个搜索引擎蜘蛛攻击了。什么是正确的冷却方法?我应该定期发送5xx响应吗?我是否应该使用robots.txt设置?或者其他什么?假设爬行器足够友好,能够尊重robots.txt,您可以通过以下方式限制它访问您的站点: User-agent: * Disallow: / 这将影响所有蜘蛛。通过为spider指定正确的用户代理来缩小范围 如果爬虫程序不尊重您的robots.txt,您可能希望通过在防火墙中阻止其IP来限制它访问您的站点 编辑:您可以阅读更多关于

我运行了一个小型Web服务器,最近它被一个搜索引擎蜘蛛攻击了。什么是正确的冷却方法?我应该定期发送5xx响应吗?我是否应该使用robots.txt设置?或者其他什么?

假设爬行器足够友好,能够尊重robots.txt,您可以通过以下方式限制它访问您的站点:

User-agent: *
Disallow: /
这将影响所有蜘蛛。通过为spider指定正确的用户代理来缩小范围

如果爬虫程序不尊重您的robots.txt,您可能希望通过在防火墙中阻止其IP来限制它访问您的站点


编辑:您可以阅读更多关于robots.txt的信息。

robots.txt应该是您的第一个呼叫端口。搜索机器人应该注意这些设置,并停止访问您拒绝访问的页面。通过使用以下语法在网站的根目录中创建文件,可以轻松完成此操作:

User-agent: *
Disallow: /
该语法本质上是这样的:所有搜索机器人都使用通配符*,不允许在/下索引任何内容。更多信息请访问


如果这不起作用,下一步是在可能的情况下禁止IP地址。

您还可以构建一个站点,并向有问题的bot注册站点地图。搜索引擎将使用站点地图来确定要点击哪些页面以及点击频率。如果你的网站是完全动态的,可能没有多大帮助,但是如果你有很多静态页面,这是一个很好的方式告诉爬行器每天都没有变化。

robots.txt应该是你的首选。但是,如果bot行为不当,并且您无法控制防火墙,则可以设置.htaccess限制以通过IP禁止它。

如果它忽略robots.txt,第二个最好的方法是通过其useragent字符串禁止它。仅仅禁止IP并没有多大用处,因为现在99%的蜘蛛都分布在一堆服务器上

User-agent: *
Disallow: /