Hadoop 点击流数据分析_Hadoop_Analytics_Clickstream

Hadoop 点击流数据分析

hadoop

Hadoop 点击流数据分析,hadoop,analytics,clickstream,Hadoop,Analytics,Clickstream,我遇到了一个有趣的场景，叫做clickstream数据分析。我只知道什么是点击流数据。我想了解更多关于这一点和不同场景的信息，在这些场景中，信息技术可以用于业务的最佳利益，以及我们在每个场景的不同步骤中处理数据所需的一套工具。也许您可以看看EDX上的spark课程，他们使用带有spark的clickstream示例进行分析和机器学习。以下内容可以从较高的层次了解大多数公司的工作：用于客户端传递事件的REST-ful API摄取向卡夫卡宣传这些事件 Spark streaming可进行实时计算

我遇到了一个有趣的场景，叫做clickstream数据分析。我只知道什么是点击流数据。我想了解更多关于这一点和不同场景的信息，在这些场景中，信息技术可以用于业务的最佳利益，以及我们在每个场景的不同步骤中处理数据所需的一套工具。

也许您可以看看EDX上的spark课程，他们使用带有spark的clickstream示例进行分析和机器学习。

以下内容可以从较高的层次了解大多数公司的工作：

用于客户端传递事件的REST-ful API摄取

向卡夫卡宣传这些事件

Spark streaming可进行实时计算

Gobblin（或类似）将数据从Kafka泵送到HDFS，然后在HDFS上运行批处理M/R作业

实时作业和批处理作业都将计算出的度量值输入到Druid（Lambda体系结构）

最终用户报告/仪表板的用户界面

用于警报的Nagios（或类似产品）

度量聚合框架，它通过堆栈中的每一层跟踪事件

根据我的经验，最好从相当成熟的工具开始，进行端到端的POC，然后看看其他可以使用的工具。例如，当您的管道开始成熟时，您甚至可以使用异步摄取API（用scala/akka编写）、Kafka流进行内联事件转换、Flink用于实时和批处理作业等。

什么是Clickstream数据？

这是用户在网上冲浪时留下的虚拟轨迹。clickstream是用户在Internet上活动的记录，包括用户访问的每个网站和每个网站的每个页面，用户在一个页面或站点上停留的时间，页面访问的顺序，用户参与的任何新闻组，甚至用户发送和接收的邮件的电子邮件地址。ISP和各个网站都能够跟踪用户的点击流

Clickstream数据可能包括以下信息：浏览器高度宽度、浏览器名称、浏览器语言、设备类型（台式机、笔记本电脑、平板电脑、手机）、收入、日期、时间戳、IP地址、URL、购物车中添加的产品数、删除的产品数、州、国家、计费邮政编码、发货邮政编码等

我们如何从点击流数据中提取更多信息？

在web分析领域，网站访问者和潜在客户相当于基于主题的数据集中的主题。考虑下面的点击流数据示例，基于主题的数据集以行和列的形式排列（如Excel电子表格）——数据集的每一行都是一个独特的主题，每一列都是关于该主题的一些信息。如果要进行基于客户的分析，则需要基于客户的数据集。在最精细的形式中，clickstream数据如下图所示。来自同一个访问者的点击被用颜色编码在一起。

数据科学家从clickstream数据中衍生出更多功能。对于每一位访客，我们在一次访问中都有几次点击，并且在一段较长的时间内，我们有一个访问集合。我们需要一种在访问者级别组织数据的方法。大概是这样的：

显然，有许多不同的方法可以聚合数据。对于页面浏览量、收入和视频浏览量等数字数据，我们可能希望使用平均值或合计值。通过这样做，我们可以获得更多关于客户行为的信息。若你们观察汇总图表，你们可以很容易地看出，公司周五的收入增加了。

一旦您获得了基于客户的数据集，就有许多不同的统计模型和数据科学技术可以让您在访客级别访问更深入、更有意义的分析。Data Science Consulting在利用这些方法实现以下目标方面拥有专业知识和经验：

预测哪些客户流失风险最高，以及确定影响该风险的因素（允许您主动维护您的客户群）
了解个人客户的品牌意识水平
为客户提供个性化、相关的服务
预测哪些客户最有可能转换，并从统计上确定您的站点如何影响该决策
确定访问者最可能访问的网站内容类型响应并了解内容参与如何推动高价值拜访
定义用户的不同角色的配置文件和特征访问者访问您的网站，并了解如何与他们互动

您可能还对以下课程感兴趣：

这是关于流程挖掘的，我认为点击跟踪分析是一个特例。

您能否告诉我一些场景，在这些场景中，我可以使用您在回答中提到的所有技术组件完成这项工作？i、这个项目的目的。我不确定我是否能说出我在公司工作的具体细节。我只是简单介绍了可用的工具以及这些工具的类型和用途，比如你使用Kafka作为消息总线，Spark运行M/R等等。你可能不需要我们使用的整套工具，甚至不需要我们使用的同一套工具。我们所做的与Google Analytics和MixPanel类似。