R 如何利用未来未知的数据?
我有两个数据集。df1存储有关餐厅的数据,df2是天气数据R 如何利用未来未知的数据?,r,pandas,machine-learning,scikit-learn,scipy,R,Pandas,Machine Learning,Scikit Learn,Scipy,我有两个数据集。df1存储有关餐厅的数据,df2是天气数据 df1 date how many customers came Sales($) how many pokes used (kg) ... 0 20180101 120 44520 58 1 20180102 270 57950
df1
date how many customers came Sales($) how many pokes used (kg) ...
0 20180101 120 44520 58
1 20180102 270 57950 60
2 20180103 290 65320 90
...
df2
date temperature precipitation ...
0 20180101 35 0.2
1 20180102 23 0.5
2 20180103 31 0.6
...
我想做一个模型,可以预测未来一天会使用多少戳
我不知道会有多少客户来,未来会有多少销售额。所以我只使用天气数据来建立一个模型
我试着用天气数据来预测销售
,用天气数据和预测销售
数据来预测使用了多少麻子
,但分数甚至比只使用天气数据的模型还要差
df1
date how many customers came Sales($) how many pokes used (kg) ...
0 20180101 120 44520 58
1 20180102 270 57950 60
2 20180103 290 65320 90
...
df2
date temperature precipitation ...
0 20180101 35 0.2
1 20180102 23 0.5
2 20180103 31 0.6
...
是否有任何方法可以利用df1中的其他数据?将日期功能上的两个数据框组合起来,并根据将来已知的功能对模型进行训练。这将是你的第一个方法。您没有提到其他功能的外观,因此我们无法真正提及哪些功能可能很重要,以及是否应该使用任何数据规范化或缩放方法 第二种方法是根据天气数据训练模型,并尝试预测客户数量,然后使用天气数据和预测的客户数据创建模型。这种特殊的方法风险很大,因为客户预测中的一个小错误可能会导致
pokes
预测中的重大变化
另外请注意,您当前使用哪个ML模型进行预测,因为并非每个模型都适用于每个数据集。只需按日期合并2个data.frames,并在您的模型中使用任意数量的变量作为预测值即可。你的问题中有什么我遗漏的吗?@Simon对不起,我已经编辑了我的问题。我想做一个模型,可以预测未来一天会使用多少戳。我可以使用天气预报数据。但是像销售这样的数据要到那一天才能知道。如果你有一些过去的历史,也值得看看数据中的趋势——许多时间序列都有周周期和年周期。你可能会从这本免费的在线教科书中得到一些东西: