Web crawler 网络爬虫如何影响网站统计?

Web crawler 网络爬虫如何影响网站统计?,web-crawler,Web Crawler,网络爬虫(来自搜索引擎和非搜索引擎)会以何种方式影响网站统计数据(例如,在测试不同的页面变化时)?如何解决这些问题 例如: 很多编写网络爬虫的人是否经常删除他们的cookie并屏蔽他们的IP,这样网络爬虫在每次抓取站点时都会显示为不同的用户 使用什么样的启发式方法来识别某个东西是机器人?(我猜任何足够复杂的机器人都无法与真实用户区分开来,如果它愿意的话——这是正确的吗?) 根据下面的评论,我只想澄清一下:我也对我的网站被明确定位(可能是非法爬虫)的情况感兴趣。检测机器人的几个简单方法: 点击/r

网络爬虫(来自搜索引擎和非搜索引擎)会以何种方式影响网站统计数据(例如,在测试不同的页面变化时)?如何解决这些问题

例如:

  • 很多编写网络爬虫的人是否经常删除他们的cookie并屏蔽他们的IP,这样网络爬虫在每次抓取站点时都会显示为不同的用户

  • 使用什么样的启发式方法来识别某个东西是机器人?(我猜任何足够复杂的机器人都无法与真实用户区分开来,如果它愿意的话——这是正确的吗?)


  • 根据下面的评论,我只想澄清一下:我也对我的网站被明确定位(可能是非法爬虫)的情况感兴趣。

    检测机器人的几个简单方法:

  • 点击
    /robots.txt
    ——只有机器人(和极客,他们可能几乎就是机器人)才会看到这一点
  • 负责用户代理的机器人程序通常在其UA字符串中有一个URL(例如,
    msnbot/2.0b)(+http://search.msn.com/msnbot.htm
    Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.2.1;聚合器:Spinn3r(Spinn3r 3.1);http://spinn3r.com/robot)Gecko/20021130
    ),所以看到这一点就相当清楚地表明这是一个机器人
  • JavaScript-bots不会执行它,所以如果你,例如,使用JavaScript设置cookie,当你在服务器上看到cookie时,你可以非常肯定它是由“真正的”浏览器发送的
  • 源IP-合法的爬虫程序通常会有自己的域,反向DNS查找会显示这些域(就是这样)
  • 在这两者之间,你应该可以毫不费力地找出哪些点击来自机器人,哪些来自真人


    最后,总会有一些令人讨厌和/或愚蠢的机器人很难被发现。但是,至少在我的经验中,野生的机器人并不多。

    有几种简单的方法可以检测机器人:

  • 点击
    /robots.txt
    ——只有机器人(和极客,他们可能几乎就是机器人)才会看到这一点
  • 负责用户代理的机器人程序通常在其UA字符串中有一个URL(例如,
    msnbot/2.0b)(+http://search.msn.com/msnbot.htm
    Mozilla/5.0(X11;U;Linux i686;en-US;rv:1.2.1;聚合器:Spinn3r(Spinn3r 3.1);http://spinn3r.com/robot)Gecko/20021130
    ),所以看到这一点就相当清楚地表明这是一个机器人
  • JavaScript-bots不会执行它,所以如果你,例如,使用JavaScript设置cookie,当你在服务器上看到cookie时,你可以非常肯定它是由“真正的”浏览器发送的
  • 源IP-合法的爬虫程序通常会有自己的域,反向DNS查找会显示这些域(就是这样)
  • 在这两者之间,你应该可以毫不费力地找出哪些点击来自机器人,哪些来自真人


    最后,总会有一些令人讨厌和/或愚蠢的机器人很难被发现。但是,至少在我的经验中,在野外的机器人并不多。

    爬虫通常会按顺序爬行,比如,页面上的第一个链接,然后是第二个链接。

    爬虫通常会按顺序爬行,比如,页面上的第一个链接,然后是第二个链接。

    爬虫通常会按顺序爬行e第二个链接。

    程序员有时也会查看robots.txt.:)程序员有时也会查看robots.txt.:)除非你是专门针对你的,否则大量的网络爬虫不会试图隐藏他们的身份。他们几乎都是像搜索引擎一样的白帽爬虫。因此,通常只需要查看一下用户代理就可以了。除非你是特定的目标,否则大容量的网络爬虫不会试图隐藏他们的身份。他们几乎都是像搜索引擎一样的白帽爬虫。因此,通常只需查看用户代理即可。