Python 替换数据框中缺失的日期,我应该使用零、最小日期还是平均日期?
在以下情况下,我是否应将NaN替换为零、平均值或最小年份“1900” 我正在尝试清理下面的示例数据框第二项在GarageArea和GarageCars列中没有值为0的车库 编辑:为了更清楚,我不是在寻找怎么做?我在寻找缺失日期的最佳值,即“Python 替换数据框中缺失的日期,我应该使用零、最小日期还是平均日期?,python,pandas,dataframe,artificial-intelligence,data-cleaning,Python,Pandas,Dataframe,Artificial Intelligence,Data Cleaning,在以下情况下,我是否应将NaN替换为零、平均值或最小年份“1900” 我正在尝试清理下面的示例数据框第二项在GarageArea和GarageCars列中没有值为0的车库 编辑:为了更清楚,我不是在寻找怎么做?我在寻找缺失日期的最佳值,即“min、avarage或zero” 不删除行,因为它是一个未训练的测试数据集 我正在尝试使用熊猫清理scikit learn randomForest的这个测试数据框,因为这是一个我认为使用零不合适的日期,而且我不确定平均值或最小值 # Year G
min、avarage或zero
”
不删除行,因为它是一个未训练的测试数据集
我正在尝试使用熊猫清理scikit learn randomForest的这个测试数据框,因为这是一个我认为使用零不合适的日期,而且我不确定平均值或最小值
# Year GarageArea GarageCars
1 1900 10 1
2 NaN 0 0
3 2001 50 2
4 1950 70 2
5 2019 100 4
这实际上取决于您试图解决的问题,但通常使用的方法是
bfill()
或ffill()
:
如果假定GarageArea或GarageCars为NaN,我们可以用平均值填充它们,但当其他字段(GarageArea或GarageCars)为零且年份为NaN时,则删除此类行将是最佳解决方案。@jezrael true,但只想添加示例:)对不起,我正在查找缺失日期的最佳值,即“min、avarage或zero”不是如何删除不是一个选项,因为它是一个测试样本而不是培训
df.ffill()
Year GarageArea GarageCars
1 1900.0 10 1
2 1900.0 0 0
3 2001.0 50 2
4 1950.0 70 2
5 2019.0 100 4
df.bfill()
Year GarageArea GarageCars
1 1900.0 10 1
2 2001.0 0 0
3 2001.0 50 2
4 1950.0 70 2
5 2019.0 100 4