Python 迭代插补器-后验样本_Python_Scikit Learn_Data Science

Python 迭代插补器-后验样本

python scikit-learn

Python 迭代插补器-后验样本,python,scikit-learn,data-science,Python,Scikit Learn,Data Science,Sklearn实现了一个名为的插补器。我相信它通过使用估计器以循环方式预测缺失特征值的值来工作它有一个名为sample_posterior的参数，但我似乎不知道什么时候应该使用它样本_后验布尔值，默认值=False 是否从每个插补的拟合估计器的（高斯）预测后验值中取样。估计员必须支持如果设置为True，则在其预测方法中返回_std。如果使用，则设置为True 多重插补的迭代插补器我看了源代码，但还是不清楚。如果我要使用迭代插补器填充多个特征，我应该使用这个吗？或者如果我计划多次使用插补器

Sklearn实现了一个名为的插补器。我相信它通过使用估计器以循环方式预测缺失特征值的值来工作

它有一个名为sample_posterior的参数，但我似乎不知道什么时候应该使用它

样本_后验布尔值，默认值=False

是否从每个插补的拟合估计器的（高斯）预测后验值中取样。估计员必须支持如果设置为True，则在其预测方法中返回_std。如果使用，则设置为True 多重插补的迭代插补器

我看了源代码，但还是不清楚。如果我要使用迭代插补器填充多个特征，我应该使用这个吗？或者如果我计划多次使用插补器，比如训练和验证集，我应该使用这个吗？

即使有多个特征，以及训练和验证/测试集，你也不需要

样本。docstring的“多重插补”部分意味着生成多个缺失数据集；见例
通常，IterativeImputer
使用基于其他特征（迭代、循环等）构建的模型预测来插补特征的缺失值。如果您使用的模型不仅生成单个预测，而且生成输出分布（后验分布），那么您可以从该分布中随机采样，因此sample\u posterior。通过多次运行它，使用不同的随机种子，这些随机选择是不同的，您可以得到多个插补数据集。
这方面的文档不是很好，但是有一个（有点陈旧）和一个