Python 替换数据框中缺失的日期，我应该使用零、最小日期还是平均日期？_Python_Pandas_Dataframe_Artificial Intelligence_Data Cleaning

Python 替换数据框中缺失的日期，我应该使用零、最小日期还是平均日期？

python pandas dataframe artificial-intelligence

Python 替换数据框中缺失的日期，我应该使用零、最小日期还是平均日期？,python,pandas,dataframe,artificial-intelligence,data-cleaning,Python,Pandas,Dataframe,Artificial Intelligence,Data Cleaning,在以下情况下，我是否应将NaN替换为零、平均值或最小年份“1900” 我正在尝试清理下面的示例数据框第二项在GarageArea和GarageCars列中没有值为0的车库编辑：为了更清楚，我不是在寻找怎么做？我在寻找缺失日期的最佳值，即“min、avarage或zero” 不删除行，因为它是一个未训练的测试数据集我正在尝试使用熊猫清理scikit learn randomForest的这个测试数据框，因为这是一个我认为使用零不合适的日期，而且我不确定平均值或最小值 # Year G

在以下情况下，我是否应将NaN替换为零、平均值或最小年份“1900”

我正在尝试清理下面的示例数据框第二项在GarageArea和GarageCars列中没有值为0的车库

编辑：为了更清楚，我不是在寻找怎么做？我在寻找缺失日期的最佳值，即“

min、avarage或zero

”

不删除行，因为它是一个未训练的测试数据集

我正在尝试使用熊猫清理scikit learn randomForest的这个测试数据框，因为这是一个我认为使用零不合适的日期，而且我不确定平均值或最小值

#   Year    GarageArea  GarageCars
1   1900    10           1
2   NaN     0            0
3   2001    50           2
4   1950    70           2
5   2019    100          4

这实际上取决于您试图解决的问题，但通常使用的方法是

bfill（）

或

ffill（）

：

如果假定GarageArea或GarageCars为NaN，我们可以用平均值填充它们，但当其他字段（GarageArea或GarageCars）为零且年份为NaN时，则删除此类行将是最佳解决方案。

@jezrael true，但只想添加示例：）对不起，我正在查找缺失日期的最佳值，即“min、avarage或zero”不是如何删除不是一个选项，因为它是一个测试样本而不是培训

df.ffill()
     Year  GarageArea  GarageCars
1  1900.0          10           1
2  1900.0           0           0
3  2001.0          50           2
4  1950.0          70           2
5  2019.0         100           4

df.bfill()
     Year  GarageArea  GarageCars
1  1900.0          10           1
2  2001.0           0           0
3  2001.0          50           2
4  1950.0          70           2
5  2019.0         100           4