Python 时间序列数据帧缺少值
我有一个2008-2015年总销售额的数据集。我每天都有一个条目,因此我创建了一个pandasPython 时间序列数据帧缺少值,python,pandas,dataframe,time-series,forecasting,Python,Pandas,Dataframe,Time Series,Forecasting,我有一个2008-2015年总销售额的数据集。我每天都有一个条目,因此我创建了一个pandasDataFrame,其中包含一个DatetimeIndex和一个sales列。看起来是这样的 问题是我缺少2010年大部分时间的数据。这些缺失的值当前由0.0表示,因此如果我绘制数据帧,我会得到 我想尝试2016年的预测值,可能使用ARIMA模型,所以我采取的第一步是对这个时间序列进行分解 显然,如果我把2010年放在数据框中,任何试图预测的结果都会被销售的明显下降(尽管是错误的)所扭曲 在这种情况
DataFrame
,其中包含一个DatetimeIndex
和一个sales列。看起来是这样的
问题是我缺少2010年大部分时间的数据。这些缺失的值当前由0.0
表示,因此如果我绘制数据帧,我会得到
我想尝试2016年的预测值,可能使用ARIMA模型,所以我采取的第一步是对这个时间序列进行分解
显然,如果我把2010年放在数据框中,任何试图预测的结果都会被销售的明显下降(尽管是错误的)所扭曲
在这种情况下,推荐的方法是什么?我想我应该干脆放弃2010年,但我不知道我的时间序列从2009年到2011年是否有效。我不想填充缺失的值,因为我不相信我能准确地填充
然而,如果我只是删除2010年,情节“填充”了2010年,这对我没有帮助
sales = sales.drop(sales['2010'].index)
你的问题更适合CrossValidated(),尽管在那里搜索“时间序列缺失数据”可能会给你答案。我认为在不完整的情况下放弃2010年是个好主意。然后,您不能根据上一个图所示的时间戳/日期进行绘图/预测。然而,您可以使用每个条目的索引轻松地绘制/预测,但要用每个相关日期标记基线。因此,日期将是可见的,但没有洞将导致下降2010年。