Google analytics 使用自定义爬虫防止虚假分析统计数据

Google analytics 使用自定义爬虫防止虚假分析统计数据,google-analytics,phantomjs,robot,anemone,Google Analytics,Phantomjs,Robot,Anemone,有没有办法通过使用PhantomJS和/或类似ruby的爬虫来防止伪造的Google分析统计数据 我们的监控工具(基于两者)从我们的客户端抓取站点,并更新特定域中每个链接的链接状态 这个问题模拟了巨大的交通量 有没有一种方法可以用饼干、头或其他东西来说“我是机器人,不要跟踪我”之类的话 (将爬虫IP添加到Google Analytics[作为过滤器]可能不是最佳解决方案) 提前感谢IP过滤可能不够,但可能通过用户代理字符串进行过滤(可以使用phantom任意设置)?这将是过滤器中的“浏览器”字段

有没有办法通过使用PhantomJS和/或类似ruby的爬虫来防止伪造的Google分析统计数据

我们的监控工具(基于两者)从我们的客户端抓取站点,并更新特定域中每个链接的链接状态

这个问题模拟了巨大的交通量

有没有一种方法可以用饼干、头或其他东西来说“我是机器人,不要跟踪我”之类的话

(将爬虫IP添加到Google Analytics[作为过滤器]可能不是最佳解决方案)


提前感谢

IP过滤可能不够,但可能通过用户代理字符串进行过滤(可以使用phantom任意设置)?这将是过滤器中的“浏览器”字段。

IP过滤可能不够,但可能通过用户代理字符串进行过滤(可以使用phantom任意设置)?这将是过滤器中的“浏览器”字段。

乔,尝试设置“高级排除过滤器”——使用字段浏览器并在“过滤器模式”中输入phantom的用户代理名称(或任何其他用户代理——在技术中查找所需名称->)


乔,尝试设置高级排除过滤器--使用字段浏览器,在“过滤器模式”中输入phantom用户代理的名称(或任何其他用户代理--在技术中查找所需的名称->)


我找到了这个特定问题的快速解决方案。将执行js(如phantomjs)的爬虫程序从所有Google Analytics统计数据中排除的最简单方法是,通过/etc/hosts简单地阻止Google Analytics域

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com
这是防止伪造数据的最简单方法。这样,您就不必向所有客户机添加筛选器


(感谢其他答案)

我找到了这个特定问题的快速解决方案。将执行js(如phantomjs)的爬虫程序从所有Google Analytics统计数据中排除的最简单方法是,通过/etc/hosts简单地阻止Google Analytics域

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com
这是防止伪造数据的最简单方法。这样,您就不必向所有客户机添加筛选器

(谢谢你的其他回答)