Scikit learn 除了使用其他自变量外,还使用因变量插补其中一个自变量的缺失值?
我想计算一个自变量的缺失值,比如变量X1,其他自变量与X1弱相关。然而,因变量与X1有很强的关系 我希望使用sklearn迭代插补器的缺失值插补估计器,如KNN回归器或树外回归器(类似于R中的missforest) 除了自变量之外,我还可以使用因变量来插补X1的值吗?这会不会在我的模型中引入太多的差异?如果不建议这样做,那么应该如何处理X1,删除X1不是一个选项,我担心如果我仅用其他IV估算X1缺失,估算值将不会适度准确Scikit learn 除了使用其他自变量外,还使用因变量插补其中一个自变量的缺失值?,scikit-learn,statistics,data-science,missing-data,Scikit Learn,Statistics,Data Science,Missing Data,我想计算一个自变量的缺失值,比如变量X1,其他自变量与X1弱相关。然而,因变量与X1有很强的关系 我希望使用sklearn迭代插补器的缺失值插补估计器,如KNN回归器或树外回归器(类似于R中的missforest) 除了自变量之外,我还可以使用因变量来插补X1的值吗?这会不会在我的模型中引入太多的差异?如果不建议这样做,那么应该如何处理X1,删除X1不是一个选项,我担心如果我仅用其他IV估算X1缺失,估算值将不会适度准确 谢谢我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是
谢谢我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是一个坏主意。这假设这些变量之间没有关系,因此因变量和插补值之间的相关性将偏向于0 格雷厄姆(2009)写道: “事实是,分析模型中的所有变量都必须 包括在插补模型中。担心的是将DV包括在 插补模型可能会导致估计重要数据的偏差 关系(例如,程序变量的回归系数 预测DV)。然而,实际情况正好相反。当DV包含在模型中时,所有相关参数估计都是无偏的,但将DV从IVs和协变量的插补模型中排除,可以得出有偏的估计。” 希望这有帮助。总结如下:
- 除了自变量外,我可以使用因变量来插补X1的值吗李>
- 这会在我的模型中引入太多的差异吗