Machine learning 给定数据集的输入的近似缺失值_Machine Learning_Classification_Regression_Imputation

Machine learning 给定数据集的输入的近似缺失值

machine-learning

Machine learning 给定数据集的输入的近似缺失值,machine-learning,classification,regression,imputation,Machine Learning,Classification,Regression,Imputation,我有一个包含x属性和y记录的数据集。如果输入记录有多达x-1个缺失值，我如何合理地估计剩余缺失值之一因此，在下面的示例中，输入记录有两个值（对于属性2和6，其余的值丢失），我想为属性8近似一个值我知道缺失值是通过“插补”处理的，但我通常会找到关于预处理数据集的例子。我正在寻找一种解决方案，它使用回归来确定缺失值，理想情况下使用一次构建的模型（如果可能，不必每次生成一个）。属性存在或不存在的可能性数量，这使得维护一组模型（如线性回归）似乎不切实际，这些模型将涵盖所有情况。对我来说，一个似乎实

我有一个包含x属性和y记录的数据集。如果输入记录有多达x-1个缺失值，我如何合理地估计剩余缺失值之一

因此，在下面的示例中，输入记录有两个值（对于属性2和6，其余的值丢失），我想为属性8近似一个值

我知道缺失值是通过“插补”处理的，但我通常会找到关于预处理数据集的例子。我正在寻找一种解决方案，它使用回归来确定缺失值，理想情况下使用一次构建的模型（如果可能，不必每次生成一个）。

属性存在或不存在的可能性数量，这使得维护一组模型（如线性回归）似乎不切实际，这些模型将涵盖所有情况。对我来说，一个似乎实用的模型，就是你不做任何模型的模型——最近邻回归。我的建议是使用任何可用的属性并计算到训练点的距离。您可以使用最近邻的值或几个最近邻的（可能加权）平均值。在您的示例中，我们将仅使用属性2和6来计算距离。最近的点是最后一个点（3.966469，8.911591）。该点的属性8的值为6.014256，因此这是您对新点的属性8的估计值

或者，您可以使用三个最近的邻居。这些是点17、8和12，因此可以使用这些点的属性8的值的平均值，或加权平均值。人们有时使用1/dist的权重。当然，三个邻居就是一个例子。你可以再选一个k

这可能比对属性8的所有缺失值使用全局平均值（8.4）要好。

如果您将示例数据作为文本而不是图像提供，这将非常有用。我们无法剪切和粘贴图像。谢谢您的回答。然而，使用k-最近算法在训练集的范围之外不会起作用，是吗？如果两个属性之间存在1:1的相关性，例如：（4,4）（5,5）（5,5）（6,6）（7,7）（7,7）（8,8），我有以下输入：（2,x）使用3个最近邻将意味着预测的x值为4.67（或者如果按1/dist加权，则为4.57）.你所描述的情况会产生令人怀疑的结果，这是对的，但任何方法都是如此。在您的示例中，我认为您假设的是一个数据模型（一条线）。如果您知道该模型，并且只需要估计参数，您可能（如示例中所示）能够做得更好。但是假设你的函数是二次函数，并且在测量中有误差。外推的效果很差。如果你不知道函数的基本形式，只是使用了一些适合训练数据的东西，那该怎么办呢。同样，推断是危险的。