Web crawler 网络爬虫如何影响网站统计？_Web Crawler

Web crawler 网络爬虫如何影响网站统计？

web-crawler

Web crawler 网络爬虫如何影响网站统计？,web-crawler,Web Crawler,网络爬虫（来自搜索引擎和非搜索引擎）会以何种方式影响网站统计数据（例如，在测试不同的页面变化时）？如何解决这些问题例如：很多编写网络爬虫的人是否经常删除他们的cookie并屏蔽他们的IP，这样网络爬虫在每次抓取站点时都会显示为不同的用户使用什么样的启发式方法来识别某个东西是机器人？（我猜任何足够复杂的机器人都无法与真实用户区分开来，如果它愿意的话——这是正确的吗？）根据下面的评论，我只想澄清一下：我也对我的网站被明确定位（可能是非法爬虫）的情况感兴趣。检测机器人的几个简单方法：点击/r

网络爬虫（来自搜索引擎和非搜索引擎）会以何种方式影响网站统计数据（例如，在测试不同的页面变化时）？如何解决这些问题

例如：

很多编写网络爬虫的人是否经常删除他们的cookie并屏蔽他们的IP，这样网络爬虫在每次抓取站点时都会显示为不同的用户

使用什么样的启发式方法来识别某个东西是机器人？（我猜任何足够复杂的机器人都无法与真实用户区分开来，如果它愿意的话——这是正确的吗？）

根据下面的评论，我只想澄清一下：我也对我的网站被明确定位（可能是非法爬虫）的情况感兴趣。

检测机器人的几个简单方法：

点击

/robots.txt

——只有机器人（和极客，他们可能几乎就是机器人）才会看到这一点

负责用户代理的机器人程序通常在其UA字符串中有一个URL（例如，

msnbot/2.0b）(+http://search.msn.com/msnbot.htm

或

Mozilla/5.0（X11；U；Linux i686；en-US；rv:1.2.1；聚合器：Spinn3r（Spinn3r 3.1）；http://spinn3r.com/robot)Gecko/20021130

），所以看到这一点就相当清楚地表明这是一个机器人

JavaScript-bots不会执行它，所以如果你，例如，使用JavaScript设置cookie，当你在服务器上看到cookie时，你可以非常肯定它是由“真正的”浏览器发送的

源IP-合法的爬虫程序通常会有自己的域，反向DNS查找会显示这些域（就是这样）

在这两者之间，你应该可以毫不费力地找出哪些点击来自机器人，哪些来自真人

最后，总会有一些令人讨厌和/或愚蠢的机器人很难被发现。但是，至少在我的经验中，野生的机器人并不多。

有几种简单的方法可以检测机器人：

点击

/robots.txt

——只有机器人（和极客，他们可能几乎就是机器人）才会看到这一点

负责用户代理的机器人程序通常在其UA字符串中有一个URL（例如，

msnbot/2.0b）(+http://search.msn.com/msnbot.htm

或

Mozilla/5.0（X11；U；Linux i686；en-US；rv:1.2.1；聚合器：Spinn3r（Spinn3r 3.1）；http://spinn3r.com/robot)Gecko/20021130

），所以看到这一点就相当清楚地表明这是一个机器人

JavaScript-bots不会执行它，所以如果你，例如，使用JavaScript设置cookie，当你在服务器上看到cookie时，你可以非常肯定它是由“真正的”浏览器发送的

源IP-合法的爬虫程序通常会有自己的域，反向DNS查找会显示这些域（就是这样）

在这两者之间，你应该可以毫不费力地找出哪些点击来自机器人，哪些来自真人

最后，总会有一些令人讨厌和/或愚蠢的机器人很难被发现。但是，至少在我的经验中，在野外的机器人并不多。

爬虫通常会按顺序爬行，比如，页面上的第一个链接，然后是第二个链接。

爬虫通常会按顺序爬行e第二个链接。

程序员有时也会查看robots.txt.：）程序员有时也会查看robots.txt.：）除非你是专门针对你的，否则大量的网络爬虫不会试图隐藏他们的身份。他们几乎都是像搜索引擎一样的白帽爬虫。因此，通常只需要查看一下用户代理就可以了。除非你是特定的目标，否则大容量的网络爬虫不会试图隐藏他们的身份。他们几乎都是像搜索引擎一样的白帽爬虫。因此，通常只需查看用户代理即可。