Apache spark Spark&;火花流
我不熟悉机器学习,所以我需要一些帮助 我有一个spark流媒体工作,它将用户用电量的数据输入Cassandra。我用这些数据填写了多个表格,其中最重要的是“小时电量数据”,它指定了每个用户在特定时间内的用电量 我想做的是预测用户在一天、一个月或一年结束前的用电量 我应该使用哪些库和模型? 回归是我真正需要的吗 我想我不能在流媒体工作中做预测,但我需要为此启动一个批处理过程 另外,如果我能为某一天绘制出预期的用户行为,直到一天结束(一个月或一年都是如此……),那会很好。Spark中的哪些库可以帮助我做到这一点?有教程吗Apache spark Spark&;火花流,apache-spark,machine-learning,regression,apache-spark-mllib,apache-spark-ml,Apache Spark,Machine Learning,Regression,Apache Spark Mllib,Apache Spark Ml,我不熟悉机器学习,所以我需要一些帮助 我有一个spark流媒体工作,它将用户用电量的数据输入Cassandra。我用这些数据填写了多个表格,其中最重要的是“小时电量数据”,它指定了每个用户在特定时间内的用电量 我想做的是预测用户在一天、一个月或一年结束前的用电量 我应该使用哪些库和模型? 回归是我真正需要的吗 我想我不能在流媒体工作中做预测,但我需要为此启动一个批处理过程 另外,如果我能为某一天绘制出预期的用户行为,直到一天结束(一个月或一年都是如此……),那会很好。Spark中的哪些库可以帮助
非常感谢为了预测一天、一个月和一年,您需要相应地分析您的时间序列。 例如,如果要预测当天的使用情况。您需要按天聚合每小时的数据。 输入数据:
date | hour | consumption|
--------------------------------
2016-05-07 | 01 | 0.3 |
2016-05-07 | 02 | 0.3 |
2016-05-07 | 03 | 0.3 |
2016-05-08 | : | 0.3 |
2016-05-08 | : | 0.3 |
2016-05-09 | 20 | 0.4 |
2016-05-09 | 21 | 0.1 |
2016-05-09 | 22 | 0.2 |
2016-05-09 | 23 | 0.3 |
2016-05-09 | 24 | 0.3 |
你的个人资料系列应该是
date | consumption|
--------------------------------
2016-05-07 | 1 |
2016-05-08 | 1.3 |
2016-05-09 | 2.3 |
此外,如果您有丢失的数据,您必须对此作出解释。
一旦你分析了你的数据,你可以尝试不同的模型,比如ARIMA,Holt Winters,也可以尝试一些状态空间模型。至于图书馆
有ARIMA实现