List 有已知网络爬虫的列表吗？_List_Documentation_Web Crawler_Bots

List 有已知网络爬虫的列表吗？

list documentation web-crawler bots

List 有已知网络爬虫的列表吗？,list,documentation,web-crawler,bots,List,Documentation,Web Crawler,Bots,我正试图获得web服务器上某些文件的准确下载编号。我看了一下用户代理，其中一些显然是机器人或网络爬虫，但对于许多人来说，我不确定，他们可能是或可能不是网络爬虫，他们导致了大量下载，所以我必须知道这一点是否有一个已知网络爬虫的列表，其中包含一些文档，如用户代理、IP、行为等我对官方网站不感兴趣，比如谷歌、雅虎或微软。这些人通常表现良好，自我认同。是一个很好的起点。如果你也需要的话，他们有一个自动的生饲料。也很有帮助。我通常用它作为参考，希望能帮到你您也可以尝试或。不幸的是，我们发现bot活动

我正试图获得web服务器上某些文件的准确下载编号。我看了一下用户代理，其中一些显然是机器人或网络爬虫，但对于许多人来说，我不确定，他们可能是或可能不是网络爬虫，他们导致了大量下载，所以我必须知道这一点

是否有一个已知网络爬虫的列表，其中包含一些文档，如用户代理、IP、行为等

我对官方网站不感兴趣，比如谷歌、雅虎或微软。这些人通常表现良好，自我认同。

是一个很好的起点。如果你也需要的话，他们有一个自动的生饲料。也很有帮助。

我通常用它作为参考，希望能帮到你

您也可以尝试或。

不幸的是，我们发现bot活动太多、太多，无法准确过滤。如果您想要准确的下载计数，最好的办法是要求javascript触发下载。这基本上是唯一能够可靠过滤掉机器人的东西。这也是为什么现在所有的站点流量分析引擎都是基于javascript的。

我在网站上维护了一个爬虫用户代理模式列表

它是协作性的，您可以通过拉取请求为其做出贡献。

我们案例中的问题是，我们有许多有效的下载程序不会运行JavaScript，如iTunes或任何其他podcatcher。不幸的是，就高度准确的下载计数而言，您真的运气不佳。我可以推荐的最佳选择是查看三个数字：总下载量（无过滤）、排除机器人的过滤器（黑名单过滤）和包含已知商品的过滤器（白名单过滤）。这至少会让你看到一些趋势和粗略的估算。对不起，需要javascript也会过滤掉合法用户。同时，大量的网站需要javascript来显示任何内容，这促使机器人运行javascript。