Scikit learn 除了使用其他自变量外，还使用因变量插补其中一个自变量的缺失值？_Scikit Learn_Statistics_Data Science_Missing Data

Scikit learn 除了使用其他自变量外，还使用因变量插补其中一个自变量的缺失值？

scikit-learn statistics

Scikit learn 除了使用其他自变量外，还使用因变量插补其中一个自变量的缺失值？,scikit-learn,statistics,data-science,missing-data,Scikit Learn,Statistics,Data Science,Missing Data,我想计算一个自变量的缺失值，比如变量X1，其他自变量与X1弱相关。然而，因变量与X1有很强的关系我希望使用sklearn迭代插补器的缺失值插补估计器，如KNN回归器或树外回归器（类似于R中的missforest）除了自变量之外，我还可以使用因变量来插补X1的值吗？这会不会在我的模型中引入太多的差异？如果不建议这样做，那么应该如何处理X1，删除X1不是一个选项，我担心如果我仅用其他IV估算X1缺失，估算值将不会适度准确谢谢我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是

我想计算一个自变量的缺失值，比如变量X1，其他自变量与X1弱相关。然而，因变量与X1有很强的关系

我希望使用sklearn迭代插补器的缺失值插补估计器，如KNN回归器或树外回归器（类似于R中的missforest）

除了自变量之外，我还可以使用因变量来插补X1的值吗？这会不会在我的模型中引入太多的差异？如果不建议这样做，那么应该如何处理X1，删除X1不是一个选项，我担心如果我仅用其他IV估算X1缺失，估算值将不会适度准确

谢谢

我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是一个坏主意。这假设这些变量之间没有关系，因此因变量和插补值之间的相关性将偏向于0

格雷厄姆（2009）写道：

“事实是，分析模型中的所有变量都必须包括在插补模型中。担心的是将DV包括在插补模型可能会导致估计重要数据的偏差关系（例如，程序变量的回归系数预测DV）。然而，实际情况正好相反。当DV包含在模型中时，所有相关参数估计都是无偏的，但将DV从IVs和协变量的插补模型中排除，可以得出有偏的估计。”

希望这有帮助。总结如下：

除了自变量外，我可以使用因变量来插补X1的值吗

是的，你可以，我读过的大部分文献都建议你绝对应该这样做

这会在我的模型中引入太多的差异吗

不，它不应该（为什么你认为这会引入更多的差异？差异到底是什么？）。它应该减少变量估计协方差/相关性的偏差

有关插补的优秀文章，请参见：

格雷厄姆（2009）。缺失数据分析：在现实世界中发挥作用。《心理学年鉴》，60549-576