Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 从平均序列预测下一事件_Apache Spark_Machine Learning_Sequence_Apache Spark Mllib_Prediction - Fatal编程技术网

Apache spark 从平均序列预测下一事件

Apache spark 从平均序列预测下一事件,apache-spark,machine-learning,sequence,apache-spark-mllib,prediction,Apache Spark,Machine Learning,Sequence,Apache Spark Mllib,Prediction,我是ml方面的新手,所以我在认识到如何将spark机器学习库用于反映事件序列的时间序列数据时遇到了一些困难 我有一个包含以下信息的表: 步骤,元素id,会话id 其中,步骤n#是每个元素出现的顺序,元素_id是已单击的元素,会话_id是发生此操作的用户会话 它由多个会话和每个会话的多个元素序列组成。i、 e.一个会话将包含多行元素。此外,每个会话都有相同的起点和终点 我的目标是训练一个模型,该模型将使用观察到的元素序列来预测最有可能被点击的下一个元素。这意味着我需要根据之前的事件预测下一个事件

我是ml方面的新手,所以我在认识到如何将spark机器学习库用于反映事件序列的时间序列数据时遇到了一些困难

我有一个包含以下信息的表:

步骤,元素id,会话id

其中,步骤n#是每个元素出现的顺序,元素_id是已单击的元素,会话_id是发生此操作的用户会话

它由多个会话和每个会话的多个元素序列组成。i、 e.一个会话将包含多行元素。此外,每个会话都有相同的起点和终点

我的目标是训练一个模型,该模型将使用观察到的元素序列来预测最有可能被点击的下一个元素。这意味着我需要根据之前的事件预测下一个事件

(换句话说,我需要对特定工作流的用户单击行为进行平均,以便模型能够根据平均值预测下一个最相关的单击)

从我在网上找到的论文和示例中,我了解到,当有一系列事件要用作培训模型的输入时,这是有意义的

在我的例子中,我有多个会话/事件实例(从同一点开始),我想训练一个平均模型。不过,我觉得理解如何使用spark中的HMM来实现这一点有点挑战性。是否有任何实际的例子或教程涵盖了这种情况


谢谢你花时间阅读我的帖子。任何想法都将不胜感激

这也可以通过频繁模式挖掘来解决。选中此项:


在这种情况下,您可以找到频繁同时发生的频繁项目。在第一步中,你教模型什么是频繁的,然后在预测步骤中,模型可以看到一些事件,并可以预测该事件最常见的事件

你可能想研究马尔可夫链。这似乎很有希望。我试试看,谢谢!它就像一个符咒:D谢谢你,但如果我在一个系列中有重复的,它就会崩溃。有解决办法吗?