List 有已知网络爬虫的列表吗?

List 有已知网络爬虫的列表吗?,list,documentation,web-crawler,bots,List,Documentation,Web Crawler,Bots,我正试图获得web服务器上某些文件的准确下载编号。我看了一下用户代理,其中一些显然是机器人或网络爬虫,但对于许多人来说,我不确定,他们可能是或可能不是网络爬虫,他们导致了大量下载,所以我必须知道这一点 是否有一个已知网络爬虫的列表,其中包含一些文档,如用户代理、IP、行为等 我对官方网站不感兴趣,比如谷歌、雅虎或微软。这些人通常表现良好,自我认同。是一个很好的起点。如果你也需要的话,他们有一个自动的生饲料。也很有帮助。我通常用它作为参考,希望能帮到你 您也可以尝试或。不幸的是,我们发现bot活动

我正试图获得web服务器上某些文件的准确下载编号。我看了一下用户代理,其中一些显然是机器人或网络爬虫,但对于许多人来说,我不确定,他们可能是或可能不是网络爬虫,他们导致了大量下载,所以我必须知道这一点

是否有一个已知网络爬虫的列表,其中包含一些文档,如用户代理、IP、行为等

我对官方网站不感兴趣,比如谷歌、雅虎或微软。这些人通常表现良好,自我认同。

是一个很好的起点。如果你也需要的话,他们有一个自动的生饲料。也很有帮助。

我通常用它作为参考,希望能帮到你


您也可以尝试或。

不幸的是,我们发现bot活动太多、太多,无法准确过滤。如果您想要准确的下载计数,最好的办法是要求javascript触发下载。这基本上是唯一能够可靠过滤掉机器人的东西。这也是为什么现在所有的站点流量分析引擎都是基于javascript的。

我在网站上维护了一个爬虫用户代理模式列表


它是协作性的,您可以通过拉取请求为其做出贡献。

我们案例中的问题是,我们有许多有效的下载程序不会运行JavaScript,如iTunes或任何其他podcatcher。不幸的是,就高度准确的下载计数而言,您真的运气不佳。我可以推荐的最佳选择是查看三个数字:总下载量(无过滤)、排除机器人的过滤器(黑名单过滤)和包含已知商品的过滤器(白名单过滤)。这至少会让你看到一些趋势和粗略的估算。对不起,需要javascript也会过滤掉合法用户。同时,大量的网站需要javascript来显示任何内容,这促使机器人运行javascript。