Html 如何忽略网络爬虫?

Html 如何忽略网络爬虫?,html,ip,web-crawler,bots,Html,Ip,Web Crawler,Bots,我有一个页面,可以计算注册用户、访客、各种用户的访问次数 因此,每次查看页面时,我都会更新数据库中的一个字段;是的,如果页面快速刷新,也可以,但我不介意 当然,当一些机器人/爬虫扫描我的网站时,他们会增加这个值,我会摆脱这个。那么,有没有可以忽略的IP地址列表?或者某种机制可以帮助我做到这一点?IP地址可以更改,因此这不是检测访问者是否是机器人的最佳方法。相反,我建议查看HTTP请求参数中的用户代理字符串 以下是用户代理字符串的列表:。请特别注意R类型下的机器人、爬虫、蜘蛛。IP地址可以更改,因

我有一个页面,可以计算注册用户、访客、各种用户的访问次数

因此,每次查看页面时,我都会更新数据库中的一个字段;是的,如果页面快速刷新,也可以,但我不介意


当然,当一些机器人/爬虫扫描我的网站时,他们会增加这个值,我会摆脱这个。那么,有没有可以忽略的IP地址列表?或者某种机制可以帮助我做到这一点?

IP地址可以更改,因此这不是检测访问者是否是机器人的最佳方法。相反,我建议查看HTTP请求参数中的用户代理字符串


以下是用户代理字符串的列表:。请特别注意R类型下的机器人、爬虫、蜘蛛。IP地址可以更改,因此这不是检测访问者是否是机器人的最佳方法。相反,我建议查看HTTP请求参数中的用户代理字符串



以下是用户代理字符串的列表:。请特别注意机器人、爬虫和蜘蛛的R类型。

大多数人没有静态IP地址。您是否设置了拒绝访问爬虫程序/机器人程序的权限?您可以定期查询日志文件,尝试识别那些不尊重robots.txt的文件,尽管用户代理很容易被欺骗/更改。

大多数人没有静态IP地址。您是否设置了拒绝访问爬虫程序/机器人程序的权限?您可以定期查询日志文件,尝试识别那些不尊重robots.txt的文件,尽管用户代理很容易被欺骗/更改。

另一种方法是使用ajax。大多数爬虫程序不解析javascript。

另一种方法是使用ajax。大多数爬虫程序不解析javascript。

@Kumar正如我在回答中提到的,这是一个很好的起点,但PITA爬虫程序/机器人通常忽略机器人。txt@marto你说的皮塔是什么意思bots@Kumar正如我在回答中提到的,这是一个很好的起点,但PITA爬虫/机器人通常忽略了机器人。txt@marto什么你是说PITA机器人他不想阻止机器人,他想在他的访问统计中忽略它们。他不想阻止机器人,他想在他的访问统计中忽略它们。哦…是的,这是一个很好的观点:你的意思是什么?有解析js的爬虫吗?谷歌能够解析javascript。但我认为它只会在有!不管怎样,既然谷歌尊重robots.txt,你也应该使用它。有了它,如果你愿意,你可以只禁用统计数据的页面。@hugo_leonardo,即使爬虫程序不解析javascript,页面本身也会被爬虫。否?@Parecier是的,但是如果他在ajax中实现它,更新访客数的请求不会被触发。还有,这个!如上所述,如果我没有弄错的话,请让谷歌知道,你必须提供另一个纯html版本的内容供它解析。哦……是的,这是一个很好的观点:对大多数人来说,你的意思是什么?有解析js的爬虫吗?谷歌能够解析javascript。但我认为它只会在有!不管怎样,既然谷歌尊重robots.txt,你也应该使用它。有了它,如果你愿意,你可以只禁用统计数据的页面。@hugo_leonardo,即使爬虫程序不解析javascript,页面本身也会被爬虫。否?@Parecier是的,但是如果他在ajax中实现它,更新访客数的请求不会被触发。还有,这个!如上所述,如果我没有弄错的话,只要让谷歌知道,你必须提供另一个纯html版本的内容供它解析。那么那些试图获取人们电子邮件的坏爬虫呢?他们不会在请求中发送用户代理信息:p@hugo_leonardo,这是另一个问题。那么那些坏的爬虫们试图获取人们的电子邮件呢?他们不会在请求中发送用户代理信息:p@hugo_leonardo,这是一个完全不同的问题