Scikit learn 除了使用其他自变量外,还使用因变量插补其中一个自变量的缺失值?

Scikit learn 除了使用其他自变量外,还使用因变量插补其中一个自变量的缺失值?,scikit-learn,statistics,data-science,missing-data,Scikit Learn,Statistics,Data Science,Missing Data,我想计算一个自变量的缺失值,比如变量X1,其他自变量与X1弱相关。然而,因变量与X1有很强的关系 我希望使用sklearn迭代插补器的缺失值插补估计器,如KNN回归器或树外回归器(类似于R中的missforest) 除了自变量之外,我还可以使用因变量来插补X1的值吗?这会不会在我的模型中引入太多的差异?如果不建议这样做,那么应该如何处理X1,删除X1不是一个选项,我担心如果我仅用其他IV估算X1缺失,估算值将不会适度准确 谢谢我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是

我想计算一个自变量的缺失值,比如变量X1,其他自变量与X1弱相关。然而,因变量与X1有很强的关系

我希望使用sklearn迭代插补器的缺失值插补估计器,如KNN回归器或树外回归器(类似于R中的missforest)

除了自变量之外,我还可以使用因变量来插补X1的值吗?这会不会在我的模型中引入太多的差异?如果不建议这样做,那么应该如何处理X1,删除X1不是一个选项,我担心如果我仅用其他IV估算X1缺失,估算值将不会适度准确


谢谢

我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是一个坏主意。这假设这些变量之间没有关系,因此因变量和插补值之间的相关性将偏向于0

格雷厄姆(2009)写道:

“事实是,分析模型中的所有变量都必须 包括在插补模型中。担心的是将DV包括在 插补模型可能会导致估计重要数据的偏差 关系(例如,程序变量的回归系数 预测DV)。然而,实际情况正好相反。当DV包含在模型中时,所有相关参数估计都是无偏的,但将DV从IVs和协变量的插补模型中排除,可以得出有偏的估计。”

希望这有帮助。总结如下:

  • 除了自变量外,我可以使用因变量来插补X1的值吗
是的,你可以,我读过的大部分文献都建议你绝对应该这样做

  • 这会在我的模型中引入太多的差异吗
不,它不应该(为什么你认为这会引入更多的差异?差异到底是什么?)。它应该减少变量估计协方差/相关性的偏差

有关插补的优秀文章,请参见:

格雷厄姆(2009)。缺失数据分析:在现实世界中发挥作用。《心理学年鉴》,60549-576