具有多个空值的R中大稀疏数据的变量选择方法_R_Bigdata_Na_Decision Tree

具有多个空值的R中大稀疏数据的变量选择方法

具有多个空值的R中大稀疏数据的变量选择方法,r,bigdata,na,decision-tree,R,Bigdata,Na,Decision Tree,我正在处理至少有100K行和至少10K个变量的数据集。有大量的空值。大多数变量是数值型的，少数是分类型的我想使用类似randomForest的方法来选择变量，但是NAs当然是个问题对于此类数据，有哪些稳健的变量选择方法？由于我无法添加注释，我将尝试回答。。。我处理的数据类型与你类似。我所做的是首先处理长格式的数据，并为每个“潜在预测值”计算列联表，我使用过滤器特征选择方法为我的数据集选择好的预测值。我将尝试举一个例子：长格式数据： ID |预测器|预测器|值|类 1 | PRED|u

我正在处理至少有100K行和至少10K个变量的数据集。有大量的空值。大多数变量是数值型的，少数是分类型的

我想使用类似randomForest的方法来选择变量，但是NAs当然是个问题

对于此类数据，有哪些稳健的变量选择方法？

由于我无法添加注释，我将尝试回答。。。我处理的数据类型与你类似。我所做的是首先处理长格式的数据，并为每个“潜在预测值”计算列联表，我使用过滤器特征选择方法为我的数据集选择好的预测值。我将尝试举一个例子：

长格式数据：

ID |预测器|预测器|值|类

1 | PRED|u 1 | 3 | 0

2 | PRED|u 1 | 1 | 1

2 | PRED|u 2 | 2 | 1

如您所见，如果您将数据放在宽格式中，PRED_2的ID=1的情况下将得到NULL

使用长格式的数据，我为每个预测值计算一个列联表，其中列出了它们在每个类别中出现的频率，并使用该列联表计算信息增益。然后，我使用信息增益值对预测值进行排序。然后，由您从该列表中选择前100或1000或任何数字预测值。一旦选择了它们，就可以转换宽格式的数据。你可能仍然会有一些缺失值，但是你可以按照上面评论中的建议使用插补，或者例如，在我的例子中，因为我使用频率，如果一个例子中没有出现预测值，我只会将其置为0。

我希望这有助于或至少提供了一些解决问题的思路……

也许你应该在训练回归树之前对数据进行转换。我会做一个简单的插补（比如，用一组兴趣的平均值或这么简单的东西），然后找到一些潜在变量，看看会发生什么。从最坏的情况到最坏的情况对da thingKarsten做个套索，你能更具体一点吗？animalito，我正在使用rfImpute，但每次都会在我的数据集上崩溃。对于大数据，您是否推荐其他可靠的自动插补软件包。另外，对稀疏数据插补的有效性有何看法？