Performance 如何防止谷歌机器人淹没网站?

Performance 如何防止谷歌机器人淹没网站?,performance,googlebot,Performance,Googlebot,我运行的网站内容很多,但流量很少,在一个中间道路专用服务器上 偶尔,Googlebot会吓跑我们,导致Apache内存耗尽,并导致服务器崩溃 如何避免这种情况?您可以在谷歌网站管理员工具中配置爬行速度。使用谷歌网站管理员工具注册您的网站,该工具允许您设置谷歌机器人尝试索引您的网站的频率和每秒请求数。谷歌网站管理员工具还可以帮助您创建robots.txt文件,以减少站点上的负载您可以使用谷歌网站管理员工具设置站点的爬网方式。具体看一下这一页: 您还可以使用robots.txt文件限制google

我运行的网站内容很多,但流量很少,在一个中间道路专用服务器上

偶尔,Googlebot会吓跑我们,导致Apache内存耗尽,并导致服务器崩溃


如何避免这种情况?

您可以在谷歌网站管理员工具中配置爬行速度。

使用谷歌网站管理员工具注册您的网站,该工具允许您设置谷歌机器人尝试索引您的网站的频率和每秒请求数。谷歌网站管理员工具还可以帮助您创建robots.txt文件,以减少站点上的负载

您可以使用谷歌网站管理员工具设置站点的爬网方式。具体看一下这一页:

您还可以使用robots.txt文件限制google bot搜索的页面。有一个设置可用于
爬网延迟
,但它似乎是由谷歌提供的。

  • 在谷歌网站管理员工具注册,验证你的网站并关闭谷歌机器人
  • 提交网站地图
  • 阅读google(如果从HTTP头修改)
  • 用于限制从bot访问网站的某些部分
  • 制作一个脚本,每个$[时间段]更改robot.txt,以确保bot永远不能同时抓取太多的页面,同时确保它可以整体抓取所有内容

请注意,您可以通过谷歌网站管理员工具(在“网站设置”下)设置爬网速度,但他们仅在六个月内遵守此设置!所以你必须每六个月登录一次才能重新设置


此设置在Google中更改。该设置现在仅保存90天(3个月,而不是6个月)。

要限制爬网速率:

  • 在搜索控制台主页上,单击所需的站点

  • 单击齿轮图标设置,然后单击站点设置

  • 在“爬网速率”区域中,选择所需的选项,然后根据需要限制爬网速率


新的爬网速率将在90天内有效。

这可能根本不是谷歌的。识别有问题的机器人程序的IP地址并进行反向查找。检查它是否解析为谷歌的域名。我见过使用Googlebot用户代理的非常有攻击性的机器人。我在
nginx.conf
中添加了一个条件,还为
Googlebot
用户代理添加了
robots.txt
代理:AhrefsBot不允许:/,但这是赢了;另一个机器人被排除在外