Seo 我应该摆脱访问我网站的机器人吗?

Seo 我应该摆脱访问我网站的机器人吗?,seo,robots.txt,Seo,Robots.txt,我在我的追踪者上注意到机器人经常访问我的网站。我是否应该更改或编辑我的robots.txt或更改某些内容?不确定这是否好,因为它们正在索引还是什么 我是否应该更改或编辑我的robots.txt或更改某些内容 这取决于机器人。一些机器人会尽职尽责地忽略robots.txt。 18个月前,我们在谷歌广告机器人上遇到了类似的问题,因为我们的客户购买了太多的广告。 谷歌广告机器人将(如文件所述)忽略通配符(*)排除,但会监听显式忽略 记住,尊重robots.txt的机器人不会抓取您的站点。如果您希望他们

我在我的追踪者上注意到机器人经常访问我的网站。我是否应该更改或编辑我的robots.txt或更改某些内容?不确定这是否好,因为它们正在索引还是什么

我是否应该更改或编辑我的robots.txt或更改某些内容

这取决于机器人。一些机器人会尽职尽责地忽略robots.txt。 18个月前,我们在谷歌广告机器人上遇到了类似的问题,因为我们的客户购买了太多的广告。 谷歌广告机器人将(如文件所述)忽略通配符(*)排除,但会监听显式忽略

记住,尊重robots.txt的机器人不会抓取您的站点。如果您希望他们能够访问您的数据进行索引,那么这是不可取的

更好的解决方案是限制或向机器人提供静态内容

不确定这是否好,因为它们正在索引还是什么

他们可能在索引/刮取/偷窃。真的是一样。我认为您想要的是基于UserAgent限制他们的http请求处理。如何做到这一点取决于您的web服务器和应用程序容器

正如其他答案中所建议的,如果bot是恶意的,那么您需要找到UserAgent模式并向它们发送403个禁止。或者,如果恶意机器人动态更改用户代理字符串,您还有两个选项:

  • 白名单用户代理-例如,创建仅接受特定用户代理的用户代理筛选器。这是非常不完美的
  • IP禁止-http头将包含源IP。或者,如果您受到拒绝服务攻击(DOS'd),那么您会遇到更大的问题

    • 我真的不认为更改robots.txt会有帮助,因为只有好的机器人才会遵守它。所有其他人都忽略它,并根据自己的喜好解析您的内容。就我个人而言,如果发现了不受欢迎的机器人,我会用一条禁止的消息来回应它们,以摆脱它们。

      垃圾邮件机器人不关心robots.txt。您可以使用类似的东西来阻止它们(这本身就是一个非常酷的Apache插件)。或者您可以忽略它们。

      您可能必须使用.htaccess来拒绝某些机器人程序篡改您的日志。 请看这里:

      我有很多Java机器人在我的网站上爬行,添加

      setEnvifLocase用户代理^Java/1。javabot=yes
      setEnvifLocase用户代理^Java1。javabot=yes
      拒绝来自env=javabot


      让他们停下来。现在他们只得到一次403,就是这样:)

      我曾经为一位客户工作,他有许多“价格比较”机器人一直在访问该网站。问题是我们的后端资源稀缺,每笔交易都要花钱

      经过一段时间的努力,这些机器人只是不断地改变它们的可识别特征。我们最终采取了以下策略:


      对于服务器上的每个会话,我们确定用户是否在任何时候单击过快。在给定的重复次数之后,我们将“isRobot”标志设置为true,并通过添加睡眠来简单地降低会话中的响应速度。我们没有以任何方式告诉用户,因为在这种情况下,他刚刚开始一个新的会话。

      不得不“不同意第1项谷歌很好地遵守robots.txt。18个月前,当我们遇到这个问题时(www.mytickets.com.au),情况并非如此。这是一个来自谷歌的广告机器人,它不断地检查新的资源。我再查一下我的消息来源你说得对。我想到的情况是:谷歌广告机器人忽略了通配符(*),我不会指望UA会进行过于简单的限制。我见过“坏”机器人每隔几次请求就轮换UAs。