Google analytics 使用自定义爬虫防止虚假分析统计数据_Google Analytics_Phantomjs_Robot_Anemone

Google analytics 使用自定义爬虫防止虚假分析统计数据

google-analytics phantomjs

Google analytics 使用自定义爬虫防止虚假分析统计数据,google-analytics,phantomjs,robot,anemone,Google Analytics,Phantomjs,Robot,Anemone,有没有办法通过使用PhantomJS和/或类似ruby的爬虫来防止伪造的Google分析统计数据我们的监控工具（基于两者）从我们的客户端抓取站点，并更新特定域中每个链接的链接状态这个问题模拟了巨大的交通量有没有一种方法可以用饼干、头或其他东西来说“我是机器人，不要跟踪我”之类的话（将爬虫IP添加到Google Analytics[作为过滤器]可能不是最佳解决方案）提前感谢IP过滤可能不够，但可能通过用户代理字符串进行过滤（可以使用phantom任意设置）？这将是过滤器中的“浏览器”字段

有没有办法通过使用PhantomJS和/或类似ruby的爬虫来防止伪造的Google分析统计数据

我们的监控工具（基于两者）从我们的客户端抓取站点，并更新特定域中每个链接的链接状态

这个问题模拟了巨大的交通量

有没有一种方法可以用饼干、头或其他东西来说“我是机器人，不要跟踪我”之类的话

（将爬虫IP添加到Google Analytics[作为过滤器]可能不是最佳解决方案）

提前感谢

IP过滤可能不够，但可能通过用户代理字符串进行过滤（可以使用phantom任意设置）？这将是过滤器中的“浏览器”字段。

乔，尝试设置“高级排除过滤器”——使用字段浏览器并在“过滤器模式”中输入phantom的用户代理名称（或任何其他用户代理——在技术中查找所需名称->）

乔，尝试设置高级排除过滤器--使用字段浏览器，在“过滤器模式”中输入phantom用户代理的名称（或任何其他用户代理--在技术中查找所需的名称->）

我找到了这个特定问题的快速解决方案。将执行js（如phantomjs）的爬虫程序从所有Google Analytics统计数据中排除的最简单方法是，通过/etc/hosts简单地阻止Google Analytics域

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com

这是防止伪造数据的最简单方法。这样，您就不必向所有客户机添加筛选器

（感谢其他答案）

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com

这是防止伪造数据的最简单方法。这样，您就不必向所有客户机添加筛选器

（谢谢你的其他回答）