Python 替换数据框中缺失的日期,我应该使用零、最小日期还是平均日期?

Python 替换数据框中缺失的日期,我应该使用零、最小日期还是平均日期?,python,pandas,dataframe,artificial-intelligence,data-cleaning,Python,Pandas,Dataframe,Artificial Intelligence,Data Cleaning,在以下情况下,我是否应将NaN替换为零、平均值或最小年份“1900” 我正在尝试清理下面的示例数据框第二项在GarageArea和GarageCars列中没有值为0的车库 编辑:为了更清楚,我不是在寻找怎么做?我在寻找缺失日期的最佳值,即“min、avarage或zero” 不删除行,因为它是一个未训练的测试数据集 我正在尝试使用熊猫清理scikit learn randomForest的这个测试数据框,因为这是一个我认为使用零不合适的日期,而且我不确定平均值或最小值 # Year G

在以下情况下,我是否应将NaN替换为零、平均值或最小年份“1900”

我正在尝试清理下面的示例数据框第二项在GarageArea和GarageCars列中没有值为0的车库

编辑:为了更清楚,我不是在寻找怎么做?我在寻找缺失日期的最佳值,即“
min、avarage或zero

不删除行,因为它是一个未训练的测试数据集

我正在尝试使用熊猫清理scikit learn randomForest的这个测试数据框,因为这是一个我认为使用零不合适的日期,而且我不确定平均值或最小值

#   Year    GarageArea  GarageCars
1   1900    10           1
2   NaN     0            0
3   2001    50           2
4   1950    70           2
5   2019    100          4

这实际上取决于您试图解决的问题,但通常使用的方法是
bfill()
ffill()


如果假定GarageArea或GarageCars为NaN,我们可以用平均值填充它们,但当其他字段(GarageArea或GarageCars)为零且年份为NaN时,则删除此类行将是最佳解决方案。

@jezrael true,但只想添加示例:)对不起,我正在查找缺失日期的最佳值,即“min、avarage或zero”不是如何删除不是一个选项,因为它是一个测试样本而不是培训
df.ffill()
     Year  GarageArea  GarageCars
1  1900.0          10           1
2  1900.0           0           0
3  2001.0          50           2
4  1950.0          70           2
5  2019.0         100           4

df.bfill()
     Year  GarageArea  GarageCars
1  1900.0          10           1
2  2001.0           0           0
3  2001.0          50           2
4  1950.0          70           2
5  2019.0         100           4