Post 应用程序识别机器人的最佳方式(Googelbot/Yahoo Slurp)

Post 应用程序识别机器人的最佳方式(Googelbot/Yahoo Slurp),post,cookies,get,googlebot,Post,Cookies,Get,Googlebot,我有一个(Rails)站点,我希望搜索引擎能够对其进行爬网和索引。然而,我也有一些我想记录为已经发生的动作——这些动作可以由已登录的用户和未登录的用户触发。现在,为了确保未登录ie匿名用户的计数不包括机器人通信量,我正在考虑一些选项,并寻求关于如何走的指导: 为所有用户设置一个cookie,如果这个cookie没有返回,因为机器人通常不接受或发回cookie,我可以区分机器人和匿名人类 检查标题并查看代理是否为bot(某些白名单): 将该操作设置为POST而不是GET。机器人问题得到解决,所以他

我有一个(Rails)站点,我希望搜索引擎能够对其进行爬网和索引。然而,我也有一些我想记录为已经发生的动作——这些动作可以由已登录的用户和未登录的用户触发。现在,为了确保未登录ie匿名用户的计数不包括机器人通信量,我正在考虑一些选项,并寻求关于如何走的指导:

  • 为所有用户设置一个cookie,如果这个cookie没有返回,因为机器人通常不接受或发回cookie,我可以区分机器人和匿名人类

  • 检查标题并查看代理是否为bot(某些白名单):

  • 将该操作设置为POST而不是GET。机器人问题得到解决,所以他们不会被计算在内

  • 还有其他方法吗


  • 我相信人们以前一定要这样做,那么解决这个问题的“规范”方法是什么呢?

    只是,这可能就足够了。请注意。所以,如果你想确保需要更多的检查。但我认为你不需要再麻烦了。

    只是,这对你来说已经足够了。请注意。所以,如果你想确保需要更多的检查。但是我认为你不需要再费心了。

    如果你不想让爬行器跟随链接,那么你可以使用它们。但是,由于可能有其他指向页面的链接,您可能还需要查看User Agent标头。根据我的经验,最常见的用户代理头包括:

    • 谷歌:
      Googlebot/2.1(http://www.googlebot.com/bot.html)
    • 谷歌图片:
      Googlebot图片/1.0(http://www.googlebot.com/bot.html)
    • MSN Live:
      msnbot产品/1.0(+http://search.msn.com/msnbot.htm)
    • 雅虎:
      Mozilla/5.0(兼容;雅虎Slurp;)

    如果您不希望爬行器跟随链接,那么您可以在它们上使用。但是,由于可能有其他指向页面的链接,您可能还需要查看User Agent标头。根据我的经验,最常见的用户代理头包括:

    • 谷歌:
      Googlebot/2.1(http://www.googlebot.com/bot.html)
    • 谷歌图片:
      Googlebot图片/1.0(http://www.googlebot.com/bot.html)
    • MSN Live:
      msnbot产品/1.0(+http://search.msn.com/msnbot.htm)
    • 雅虎:
      Mozilla/5.0(兼容;雅虎Slurp;)

    没问题-您可能知道,它主要用于防止在网站显示用户提交的外部链接时操纵页面排名,因此您的用例有点不同。没问题-您可能知道,它主要用于防止在网站显示用户提交的外部链接时操纵页面排名,所以您的用例有点不同。