Machine learning 给定数据集的输入的近似缺失值

Machine learning 给定数据集的输入的近似缺失值,machine-learning,classification,regression,imputation,Machine Learning,Classification,Regression,Imputation,我有一个包含x属性和y记录的数据集。如果输入记录有多达x-1个缺失值,我如何合理地估计剩余缺失值之一 因此,在下面的示例中,输入记录有两个值(对于属性2和6,其余的值丢失),我想为属性8近似一个值 我知道缺失值是通过“插补”处理的,但我通常会找到关于预处理数据集的例子。我正在寻找一种解决方案,它使用回归来确定缺失值,理想情况下使用一次构建的模型(如果可能,不必每次生成一个)。属性存在或不存在的可能性数量,这使得维护一组模型(如线性回归)似乎不切实际,这些模型将涵盖所有情况。对我来说,一个似乎实

我有一个包含x属性和y记录的数据集。如果输入记录有多达x-1个缺失值,我如何合理地估计剩余缺失值之一

因此,在下面的示例中,输入记录有两个值(对于属性2和6,其余的值丢失),我想为属性8近似一个值


我知道缺失值是通过“插补”处理的,但我通常会找到关于预处理数据集的例子。我正在寻找一种解决方案,它使用回归来确定缺失值,理想情况下使用一次构建的模型(如果可能,不必每次生成一个)。

属性存在或不存在的可能性数量,这使得维护一组模型(如线性回归)似乎不切实际,这些模型将涵盖所有情况。对我来说,一个似乎实用的模型,就是你不做任何模型的模型——最近邻回归。我的建议是使用任何可用的属性并计算到训练点的距离。您可以使用最近邻的值或几个最近邻的(可能加权)平均值。在您的示例中,我们将仅使用属性2和6来计算距离。最近的点是最后一个点(3.966469,8.911591)。该点的属性8的值为6.014256,因此这是您对新点的属性8的估计值

或者,您可以使用三个最近的邻居。这些是点17、8和12,因此可以使用这些点的属性8的值的平均值,或加权平均值。人们有时使用1/dist的权重。当然,三个邻居就是一个例子。你可以再选一个k


这可能比对属性8的所有缺失值使用全局平均值(8.4)要好。

如果您将示例数据作为文本而不是图像提供,这将非常有用。我们无法剪切和粘贴图像。谢谢您的回答。然而,使用k-最近算法在训练集的范围之外不会起作用,是吗?如果两个属性之间存在1:1的相关性,例如:(4,4)(5,5)(5,5)(6,6)(7,7)(7,7)(8,8),我有以下输入:(2,x)使用3个最近邻将意味着预测的x值为4.67(或者如果按1/dist加权,则为4.57).你所描述的情况会产生令人怀疑的结果,这是对的,但任何方法都是如此。在您的示例中,我认为您假设的是一个数据模型(一条线)。如果您知道该模型,并且只需要估计参数,您可能(如示例中所示)能够做得更好。但是假设你的函数是二次函数,并且在测量中有误差。外推的效果很差。如果你不知道函数的基本形式,只是使用了一些适合训练数据的东西,那该怎么办呢。同样,推断是危险的。