Dataset 如何在H2O'中格式化时间序列预测的数据集;无人驾驶人工智能

Dataset 如何在H2O'中格式化时间序列预测的数据集;无人驾驶人工智能,dataset,time-series,h2o,driverless-ai,Dataset,Time Series,H2o,Driverless Ai,为简单起见,假设我正试图预测单值变量序列的第二天,因此我的datasaet的形式为: input label x1 x2 x2 x3 x3 x4 ... ... xt xt+1 但是,对于许多不同的用户,我的数据在时间上具有相同的序列,因此其形式如下: input label u1x1 u1x2 u1x2 u1x3 u1x3 u1x4 ... ... u

为简单起见,假设我正试图预测单值变量序列的第二天,因此我的datasaet的形式为:

input    label
   x1       x2
   x2       x3
   x3       x4
  ...      ...
   xt      xt+1
但是,对于许多不同的用户,我的数据在时间上具有相同的序列,因此其形式如下:

input    label
 u1x1     u1x2
 u1x2     u1x3
 u1x3     u1x4
  ...      ...
 u1xt   u1xt+1
 u2x1     u2x2
 u2x2     u2x3
 u2x3     u2x4
  ...      ...
 u2xt   u2xt+1
  ...      ...
 unx1     unx2
 unx2     unx3
 unx3     unx4
  ...      ...
 unxt   unxt+1
什么是一种可接受的方法来构造这些数据并将其输入DAI,从而使其不被视为一个完整的长序列,而是一组在时间上平行的非直接相关序列


编辑:数据有一个“UserID”列。DAI是否可以自动使用它来解决我正在解释的问题?

要格式化数据进行预测,您需要为每个感兴趣的组和特定时间段(在您的情况下是一天)聚合数据

因此,如果预测期限为一天,则需要按用户、单值变量和天数进行聚合,以便将目标(标签)作为每天的总金额。您可以找到有关如何为无人驾驶和无人驾驶设置数据的文档

编辑 针对评论:

下面是另一个示例,使用每个用户应在日级别聚合的假设来解释预期的数据格式:

如果你有5个用户一天的数据,你的数据集应该只有5行,但是如果你有5个用户10天的数据,你应该有50行数据


然后在无人驾驶AI中,当你设置实验时,你会将你的时间组设置为用户列

Hi Lauren。谢谢你的解释和链接。从我收集的数据来看,我提供的样本数据已经正确格式化,可以输入DAI了吗?它在前t行中包含用户1的数据长度t的整个时间序列序列,然后是用户2的数据长度t行,等等@KOB更新了答案以澄清答案。新的示例应该有助于澄清为什么您提供的示例数据尚未正确格式化为DAI。我仍然不明白这与我的原始示例有何不同。在我的示例中,我有n个用户的t天数据,因此数据集有txn(t乘以n)行。因此,如果我有t=10天的数据,n=5个用户,我的数据集将有50行,就像你建议的那样。我明白了,我误解了你的t单位。是的,那么你的样品的格式是正确的。