Python 数据帧中缺失值的自动插值

Python 数据帧中缺失值的自动插值,python,pandas,time-series,interpolation,missing-data,Python,Pandas,Time Series,Interpolation,Missing Data,我有一个数据框,其中包含过去一年中某个特定出发地和目的地的机票预订数据。系统中有数百个类似的数据集 在每个数据集中,数据中都有漏洞。在当前示例中,我们一年中大约有85天没有预订数据 这里有两列-出发日期和预订。 我的下一步是在日期列中包含缺少的日期,并将bookings列中的相应值设置为NaN。 我正在寻找最好的方法来做到这一点 请在下面找到数据框的一部分: Index departure_date bookings 0 2017-11-

我有一个数据框,其中包含过去一年中某个特定出发地和目的地的机票预订数据。系统中有数百个类似的数据集

在每个数据集中,数据中都有漏洞。在当前示例中,我们一年中大约有85天没有预订数据

这里有两列-
出发日期和预订。

我的下一步是
在日期列中包含缺少的日期,并将bookings列中的相应值设置为NaN。

我正在寻找最好的方法来做到这一点

请在下面找到数据框的一部分:

Index       departure_date              bookings
0           2017-11-02 00:00:00             43
1           2017-11-03 00:00:00             27
2           2017-11-05 00:00:00             27 ********
3           2017-11-06 00:00:00             22
4           2017-11-07 00:00:00             39
.
.
164         2018-05-22 00:00:00             17
165         2018-05-23 00:00:00             41
166         2018-05-24 00:00:00             73
167         2018-07-02 00:00:00             4  *********
168         2018-07-03 00:00:00             31
.
.
277         2018-10-31 00:00:00             50
278         2018-11-01 00:00:00             60
我们可以看到,数据集为一年期(2017年11月2日至2018年11月1日)。但我们只有279天的数据。例如,我们没有2018-05-25和2018-07-01之间的任何数据。我必须将这些日期包括在出发日期列中,并将相应的预订值设置为NaN

对于第二步,我计划使用以下方法进行插值

dataFrame['bookings'].interpolate(method='time', inplace=True)

请建议Python中是否有更好的替代方案。

这是每天的重采样。然后填补空白

dataFrame['bookings'].resample('D').pad()
您可以在此页面上有更多重采样的想法(因此您可以选择最适合您需要的):

我怀疑插值是否准确……没错。。这只是为了一些测试目的。现在,我需要知道如何通过在bookings列中包含缺少的日期和NaN值来准备数据框。似乎有许多方法可以估计缺失的时间序列数据。