Html 如何忽略网络爬虫？_Html_Ip_Web Crawler_Bots

Html 如何忽略网络爬虫？

html ip web-crawler bots

Html 如何忽略网络爬虫？,html,ip,web-crawler,bots,Html,Ip,Web Crawler,Bots,我有一个页面，可以计算注册用户、访客、各种用户的访问次数因此，每次查看页面时，我都会更新数据库中的一个字段；是的，如果页面快速刷新，也可以，但我不介意当然，当一些机器人/爬虫扫描我的网站时，他们会增加这个值，我会摆脱这个。那么，有没有可以忽略的IP地址列表？或者某种机制可以帮助我做到这一点？IP地址可以更改，因此这不是检测访问者是否是机器人的最佳方法。相反，我建议查看HTTP请求参数中的用户代理字符串以下是用户代理字符串的列表：。请特别注意R类型下的机器人、爬虫、蜘蛛。IP地址可以更改，因

我有一个页面，可以计算注册用户、访客、各种用户的访问次数

因此，每次查看页面时，我都会更新数据库中的一个字段；是的，如果页面快速刷新，也可以，但我不介意

当然，当一些机器人/爬虫扫描我的网站时，他们会增加这个值，我会摆脱这个。那么，有没有可以忽略的IP地址列表？或者某种机制可以帮助我做到这一点？

IP地址可以更改，因此这不是检测访问者是否是机器人的最佳方法。相反，我建议查看HTTP请求参数中的用户代理字符串

以下是用户代理字符串的列表：。请特别注意R类型下的机器人、爬虫、蜘蛛。IP地址可以更改，因此这不是检测访问者是否是机器人的最佳方法。相反，我建议查看HTTP请求参数中的用户代理字符串

以下是用户代理字符串的列表：。请特别注意机器人、爬虫和蜘蛛的R类型。

大多数人没有静态IP地址。您是否设置了拒绝访问爬虫程序/机器人程序的权限？您可以定期查询日志文件，尝试识别那些不尊重robots.txt的文件，尽管用户代理很容易被欺骗/更改。

另一种方法是使用ajax。大多数爬虫程序不解析javascript。

@Kumar正如我在回答中提到的，这是一个很好的起点，但PITA爬虫程序/机器人通常忽略机器人。txt@marto你说的皮塔是什么意思bots@Kumar正如我在回答中提到的，这是一个很好的起点，但PITA爬虫/机器人通常忽略了机器人。txt@marto什么你是说PITA机器人他不想阻止机器人，他想在他的访问统计中忽略它们。他不想阻止机器人，他想在他的访问统计中忽略它们。哦…是的，这是一个很好的观点：你的意思是什么？有解析js的爬虫吗？谷歌能够解析javascript。但我认为它只会在有！不管怎样，既然谷歌尊重robots.txt，你也应该使用它。有了它，如果你愿意，你可以只禁用统计数据的页面。@hugo_leonardo，即使爬虫程序不解析javascript，页面本身也会被爬虫。否？@Parecier是的，但是如果他在ajax中实现它，更新访客数的请求不会被触发。还有，这个！如上所述，如果我没有弄错的话，请让谷歌知道，你必须提供另一个纯html版本的内容供它解析。哦……是的，这是一个很好的观点：对大多数人来说，你的意思是什么？有解析js的爬虫吗？谷歌能够解析javascript。但我认为它只会在有！不管怎样，既然谷歌尊重robots.txt，你也应该使用它。有了它，如果你愿意，你可以只禁用统计数据的页面。@hugo_leonardo，即使爬虫程序不解析javascript，页面本身也会被爬虫。否？@Parecier是的，但是如果他在ajax中实现它，更新访客数的请求不会被触发。还有，这个！如上所述，如果我没有弄错的话，只要让谷歌知道，你必须提供另一个纯html版本的内容供它解析。那么那些试图获取人们电子邮件的坏爬虫呢？他们不会在请求中发送用户代理信息：p@hugo_leonardo，这是另一个问题。那么那些坏的爬虫们试图获取人们的电子邮件呢？他们不会在请求中发送用户代理信息：p@hugo_leonardo，这是一个完全不同的问题