Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/macos/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google analytics 如何从Google Analytics中提取数据并从中构建数据仓库(webhouse)?_Google Analytics_Data Warehouse_Etl - Fatal编程技术网

Google analytics 如何从Google Analytics中提取数据并从中构建数据仓库(webhouse)?

Google analytics 如何从Google Analytics中提取数据并从中构建数据仓库(webhouse)?,google-analytics,data-warehouse,etl,Google Analytics,Data Warehouse,Etl,我有点击流数据,如参考URL、顶部登录页面、顶部退出页面,以及页面浏览量、访问次数、反弹等指标,这些都在谷歌分析中。目前还没有数据库可以存储所有这些信息。我需要从这些数据中从头开始构建一个数据仓库(我相信这就是所谓的web house),所以我需要从Google Analytics中提取数据,并每天自动将其加载到仓库中。我的问题是:- 1) 可能吗?每天数据都在增加(有些是关于访问等指标或度量,有些是关于新的参考站点),加载仓库的过程将如何进行 2) 什么样的ETL工具可以帮助我实现这一点?我相

我有点击流数据,如参考URL、顶部登录页面、顶部退出页面,以及页面浏览量、访问次数、反弹等指标,这些都在谷歌分析中。目前还没有数据库可以存储所有这些信息。我需要从这些数据中从头开始构建一个数据仓库(我相信这就是所谓的web house),所以我需要从Google Analytics中提取数据,并每天自动将其加载到仓库中。我的问题是:-

1) 可能吗?每天数据都在增加(有些是关于访问等指标或度量,有些是关于新的参考站点),加载仓库的过程将如何进行

2) 什么样的ETL工具可以帮助我实现这一点?我相信Pentaho有办法从谷歌分析中提取数据,有人用过吗?这个过程是如何进行的? 除答案外,欢迎提供任何参考资料和链接。

您可以使用谷歌提供的或我们专门为您的需要构建的服务:www.analyticspros.com/products/analytics-data-warehouse.html

最好的

-卡莱布·惠特莫尔
www.analyticspros.com/www.analyticsformarketers.com

一如既往,了解底层事务数据的结构(用于构建数据仓库的原子组件)是第一步也是最大的一步

根据检索数据的方式,基本上有两个选项。其中一个问题在前面的回答中已经提到,就是通过GA API访问GA数据。这与GA报告中的数据形式非常接近,而不是事务性数据。将其用作数据源的优点是“ETL”非常简单,只需解析XML容器中的数据即可

第二种方法是抓取更靠近源的数据

没什么复杂的,不过,这里几行背景可能会有所帮助

  • GA Web仪表板由创建 分析/过滤GA事务日志 (集装箱 它保存了 对应于一个配置文件中的一个配置文件 账户)

  • 此日志中的每一行表示一个 单笔交易和交付 以 来自客户端的HTTP请求

  • 附加到该请求(即 对于单像素GIF,名义上是 包含所有 从中返回的数据 _TrackPageview函数调用加上来自客户端DOM的数据, 为该客户端设置,并且 浏览器位置的内容 巴(.)

  • 虽然这个请求来自 客户端,它由GA调用 脚本(驻留在客户端上) 执行GA的主要任务后立即 数据收集功能 (_TrackPageview)

因此,直接处理这些事务数据可能是构建数据仓库最自然的方式;另一个优点是避免了中间API的额外开销

GA日志的各行通常不可供GA用户使用。不过,得到它们很简单。这两个步骤应该足够了:

  • 修改站点每个页面上的GA跟踪代码,以便 发送每个GIF请求的副本 (GA日志文件中的一行)到您的 自己的服务器,特别是, 就在号召 _trackPageview(),添加此行:

    pageTracker._setLocalRemoteServerMode();
    
  • 接下来,只需放置一个单像素gif 文档根目录中的图像和调用 它是“\uu utm.gif”

  • 因此,现在您的服务器活动日志将包含这些单独的转换行,同样是根据附加到GA跟踪像素HTTP请求的字符串以及请求中的其他数据(例如,用户代理字符串)构建的。前一个字符串只是键值对的串联,每个键都以字母“utm”(可能表示“urching tracker”)开头。并非每个utm参数都出现在每个GIF请求中,例如,其中一些参数仅用于电子商务交易——这取决于交易

    这是一个实际的GIF请求(帐户ID已被清除,否则将保持不变):

    如您所见,该字符串由一组键值对组成,每个键值对之间用“&”分隔。只需两个小步骤:(i)在符号上拆分此字符串;(ii)用一个简短的描述性短语替换每个gif参数(键),使其更易于阅读:

    gatc_版本1

    GIF请求唯一id1669045322

    语言编码UTF-8

    屏幕分辨率1280x800

    屏幕颜色深度24位

    浏览器\u语言美国

    已启用java_1

    flash\u版本10.0%20r45

    活动会话\u新增1

    页面标题位置%20Listings%20%7C%20Linden%20Lab

    主机名lindenlab.hrmdirect.com

    推荐\u url

    请求页面/employment/openings.php?sort=da

    账户字符串UA-XXXXXX-X

    cookiescookies
    \uuuuUtMA%3D87045125.1669045322.1274256051.1274256051.1%3B%2B\uUtMB%3D87045125%3B\uUtMC%3D87045125%3B%2B\uUtMz%3D87045125.1274256051.1.1.1.1.1.联合技术合作伙伴关系%3D(转介)%7Cutmcsr%3Dlindenlab.com%7Cutmcct%3D%2Femployment%7cutd%3Dreferral%3B%2B

    cookies也很容易解析(参见谷歌的简明描述):例如

    • \uuuUTMA是唯一的访客cookie

    • \uuuuutmb,\uuuuutmc<