Apache spark Spark&;火花流

Apache spark Spark&;火花流,apache-spark,machine-learning,regression,apache-spark-mllib,apache-spark-ml,Apache Spark,Machine Learning,Regression,Apache Spark Mllib,Apache Spark Ml,我不熟悉机器学习,所以我需要一些帮助 我有一个spark流媒体工作,它将用户用电量的数据输入Cassandra。我用这些数据填写了多个表格,其中最重要的是“小时电量数据”,它指定了每个用户在特定时间内的用电量 我想做的是预测用户在一天、一个月或一年结束前的用电量 我应该使用哪些库和模型? 回归是我真正需要的吗 我想我不能在流媒体工作中做预测,但我需要为此启动一个批处理过程 另外,如果我能为某一天绘制出预期的用户行为,直到一天结束(一个月或一年都是如此……),那会很好。Spark中的哪些库可以帮助

我不熟悉机器学习,所以我需要一些帮助

我有一个spark流媒体工作,它将用户用电量的数据输入Cassandra。我用这些数据填写了多个表格,其中最重要的是“小时电量数据”,它指定了每个用户在特定时间内的用电量

我想做的是预测用户在一天、一个月或一年结束前的用电量

我应该使用哪些库和模型? 回归是我真正需要的吗

我想我不能在流媒体工作中做预测,但我需要为此启动一个批处理过程

另外,如果我能为某一天绘制出预期的用户行为,直到一天结束(一个月或一年都是如此……),那会很好。Spark中的哪些库可以帮助我做到这一点?有教程吗


非常感谢

为了预测一天、一个月和一年,您需要相应地分析您的时间序列。 例如,如果要预测当天的使用情况。您需要按天聚合每小时的数据。 输入数据:

date       | hour | consumption|
--------------------------------
2016-05-07 | 01   | 0.3        |
2016-05-07 | 02   | 0.3        |
2016-05-07 | 03   | 0.3        |
2016-05-08 | :    | 0.3        |
2016-05-08 | :    | 0.3        |
2016-05-09 | 20   | 0.4        |
2016-05-09 | 21   | 0.1        |
2016-05-09 | 22   | 0.2        |
2016-05-09 | 23   | 0.3        |
2016-05-09 | 24   | 0.3        |
你的个人资料系列应该是

date       | consumption|
--------------------------------
2016-05-07 | 1          |
2016-05-08 | 1.3        |
2016-05-09 | 2.3        |
此外,如果您有丢失的数据,您必须对此作出解释。 一旦你分析了你的数据,你可以尝试不同的模型,比如ARIMA,Holt Winters,也可以尝试一些状态空间模型。至于图书馆 有ARIMA实现