Python 迭代插补器-后验样本

Python 迭代插补器-后验样本,python,scikit-learn,data-science,Python,Scikit Learn,Data Science,Sklearn实现了一个名为的插补器。我相信它通过使用估计器以循环方式预测缺失特征值的值来工作 它有一个名为sample_posterior的参数,但我似乎不知道什么时候应该使用它 样本_后验布尔值,默认值=False 是否从每个插补的拟合估计器的(高斯)预测后验值中取样。估计员必须支持 如果设置为True,则在其预测方法中返回_std。如果使用,则设置为True 多重插补的迭代插补器 我看了源代码,但还是不清楚。如果我要使用迭代插补器填充多个特征,我应该使用这个吗?或者如果我计划多次使用插补器

Sklearn实现了一个名为的插补器。我相信它通过使用估计器以循环方式预测缺失特征值的值来工作

它有一个名为sample_posterior的参数,但我似乎不知道什么时候应该使用它

样本_后验布尔值,默认值=False

是否从每个插补的拟合估计器的(高斯)预测后验值中取样。估计员必须支持 如果设置为True,则在其预测方法中返回_std。如果使用,则设置为True 多重插补的迭代插补器


我看了源代码,但还是不清楚。如果我要使用迭代插补器填充多个特征,我应该使用这个吗?或者如果我计划多次使用插补器,比如训练和验证集,我应该使用这个吗?

即使有多个特征,以及训练和验证/测试集,你也不需要
样本。docstring的“多重插补”部分意味着生成多个缺失数据集;见例

通常,
IterativeImputer
使用基于其他特征(迭代、循环等)构建的模型预测来插补特征的缺失值。如果您使用的模型不仅生成单个预测,而且生成输出分布(后验分布),那么您可以从该分布中随机采样,因此
sample\u posterior
。通过多次运行它,使用不同的随机种子,这些随机选择是不同的,您可以得到多个插补数据集。 这方面的文档不是很好,但是有一个(有点陈旧)和一个