Web 如果搜索引擎蜘蛛正在攻击我的网站，我该怎么办？_Web_Search Engine_Web Crawler

Web 如果搜索引擎蜘蛛正在攻击我的网站，我该怎么办？

web web-crawler

Web 如果搜索引擎蜘蛛正在攻击我的网站，我该怎么办？,web,search-engine,web-crawler,Web,Search Engine,Web Crawler,我运行了一个小型Web服务器，最近它被一个搜索引擎蜘蛛攻击了。什么是正确的冷却方法？我应该定期发送5xx响应吗？我是否应该使用robots.txt设置？或者其他什么？假设爬行器足够友好，能够尊重robots.txt，您可以通过以下方式限制它访问您的站点： User-agent: * Disallow: / 这将影响所有蜘蛛。通过为spider指定正确的用户代理来缩小范围如果爬虫程序不尊重您的robots.txt，您可能希望通过在防火墙中阻止其IP来限制它访问您的站点编辑：您可以阅读更多关于

我运行了一个小型Web服务器，最近它被一个搜索引擎蜘蛛攻击了。什么是正确的冷却方法？我应该定期发送5xx响应吗？我是否应该使用robots.txt设置？或者其他什么？

假设爬行器足够友好，能够尊重robots.txt，您可以通过以下方式限制它访问您的站点：

User-agent: *
Disallow: /

这将影响所有蜘蛛。通过为spider指定正确的用户代理来缩小范围

如果爬虫程序不尊重您的robots.txt，您可能希望通过在防火墙中阻止其IP来限制它访问您的站点

编辑：您可以阅读更多关于robots.txt的信息。

robots.txt应该是您的第一个呼叫端口。搜索机器人应该注意这些设置，并停止访问您拒绝访问的页面。通过使用以下语法在网站的根目录中创建文件，可以轻松完成此操作：

User-agent: *
Disallow: /

该语法本质上是这样的：所有搜索机器人都使用通配符*，不允许在/下索引任何内容。更多信息请访问

如果这不起作用，下一步是在可能的情况下禁止IP地址。

您还可以构建一个站点，并向有问题的bot注册站点地图。搜索引擎将使用站点地图来确定要点击哪些页面以及点击频率。如果你的网站是完全动态的，可能没有多大帮助，但是如果你有很多静态页面，这是一个很好的方式告诉爬行器每天都没有变化。

robots.txt应该是你的首选。但是，如果bot行为不当，并且您无法控制防火墙，则可以设置.htaccess限制以通过IP禁止它。

如果它忽略robots.txt，第二个最好的方法是通过其useragent字符串禁止它。仅仅禁止IP并没有多大用处，因为现在99%的蜘蛛都分布在一堆服务器上

User-agent: *
Disallow: /