Python 利用时间序列数据预测故障
我正在使用Python和Pandas。我正在从事一个预测性维护项目,我的目的是预测在给定时间段(比如4-6小时)内发生故障的概率。我已经对数据进行了预处理,并将其简化为以下内容: 数据集有4个属性:开始时间、结束时间、事件持续时间(即开始时间和结束时间的差异),第四个属性是失败或未失败的事件。(1不合格,0不合格) 样本数据如下:Python 利用时间序列数据预测故障,python,pandas,machine-learning,time-series,predictive,Python,Pandas,Machine Learning,Time Series,Predictive,我正在使用Python和Pandas。我正在从事一个预测性维护项目,我的目的是预测在给定时间段(比如4-6小时)内发生故障的概率。我已经对数据进行了预处理,并将其简化为以下内容: 数据集有4个属性:开始时间、结束时间、事件持续时间(即开始时间和结束时间的差异),第四个属性是失败或未失败的事件。(1不合格,0不合格) 样本数据如下: START_TIME END_TIME DURATION_MINUTES EVENT 2/15/2018 2:32 2/15/2018
START_TIME END_TIME DURATION_MINUTES EVENT
2/15/2018 2:32 2/15/2018 2:32 0.566666667 0
2/15/2018 2:32 2/15/2018 2:33 0.916666667 0
2/15/2018 2:33 2/15/2018 2:33 0.116666667 1
2/15/2018 2:33 2/15/2018 2:35 1.283333333 0
2/15/2018 2:35 2/15/2018 2:35 0.083333333 0
2/15/2018 2:35 2/15/2018 2:35 0.166666667 0
2/15/2018 2:35 2/15/2018 2:35 0 0
我有大约120000个数据实例。有人能告诉我如何可视化和预测故障(事件=1)在任何给定的一天(时间框架为4小时)发生的概率吗?神经网络和一些深入的学习应该是算法路线你是说你拥有的唯一数据是一个时间戳,以及故障是否在这个时间戳发生?你不应该有一些其他的输入,比如温度、振动、设备的使用年限、工作时间等吗?否则我们能预测什么呢?你认为失败发生在一天中的特定时间或特定季节吗?@JohnZwinck谢谢。这项练习的全部目的是找出我们在给定时间范围内可以预测故障发生的程度。这个问题的一个推论可能是预测机器是否会在上午10点到下午5点出现故障?我是否能够预测它将以大约70%或更多的信心失败?同样,这个练习是为了看看机器学习模型可以用最少的数据属性做些什么,在我的例子中是4个属性和120000个实例。将来我会像你说的那样收集更多的属性。要可视化数据,你可以使用
matplotlib
模块中的step
函数,并将START\u TIME
设置为x轴,将EVENT
设置为y轴。对于预测,您可以将日期转换为浮点(numpy.astype(np.float64)
)。@RobJan您建议我使用哪种算法来预测失败?因为这是对一段时间内的故障进行预测,而不是将输入作为时间戳,将分类作为输出。这个问题的一个问题是它没有解释“预测”的含义。我和至少一位其他评论者假设您使用了一组测量来确定故障的条件已经成熟。然而,您的数据集本质上是历史的,这意味着您实际上可能会问以下问题:给定历史趋势,第二天的预期总故障持续时间是多少?在这一点上,您已经得到了一个统计问题,它更适合于