Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/opengl/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/maven/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
具有多个空值的R中大稀疏数据的变量选择方法_R_Bigdata_Na_Decision Tree - Fatal编程技术网

具有多个空值的R中大稀疏数据的变量选择方法

具有多个空值的R中大稀疏数据的变量选择方法,r,bigdata,na,decision-tree,R,Bigdata,Na,Decision Tree,我正在处理至少有100K行和至少10K个变量的数据集。有大量的空值。大多数变量是数值型的,少数是分类型的 我想使用类似randomForest的方法来选择变量,但是NAs当然是个问题 对于此类数据,有哪些稳健的变量选择方法?由于我无法添加注释,我将尝试回答。。。我处理的数据类型与你类似。我所做的是首先处理长格式的数据,并为每个“潜在预测值”计算列联表,我使用过滤器特征选择方法为我的数据集选择好的预测值。我将尝试举一个例子: 长格式数据: ID |预测器|预测器|值|类 1 | PRED|u

我正在处理至少有100K行和至少10K个变量的数据集。有大量的空值。大多数变量是数值型的,少数是分类型的

我想使用类似randomForest的方法来选择变量,但是NAs当然是个问题


对于此类数据,有哪些稳健的变量选择方法?

由于我无法添加注释,我将尝试回答。。。我处理的数据类型与你类似。我所做的是首先处理长格式的数据,并为每个“潜在预测值”计算列联表,我使用过滤器特征选择方法为我的数据集选择好的预测值。我将尝试举一个例子:

  • 长格式数据:
ID |预测器|预测器|值|类

1 | PRED|u 1 | 3 | 0

2 | PRED|u 1 | 1 | 1

2 | PRED|u 2 | 2 | 1

如您所见,如果您将数据放在宽格式中,PRED_2的ID=1的情况下将得到NULL

使用长格式的数据,我为每个预测值计算一个列联表,其中列出了它们在每个类别中出现的频率,并使用该列联表计算信息增益。然后,我使用信息增益值对预测值进行排序。然后,由您从该列表中选择前100或1000或任何数字预测值。一旦选择了它们,就可以转换宽格式的数据。你可能仍然会有一些缺失值,但是你可以按照上面评论中的建议使用插补,或者例如,在我的例子中,因为我使用频率,如果一个例子中没有出现预测值,我只会将其置为0。
我希望这有助于或至少提供了一些解决问题的思路……

也许你应该在训练回归树之前对数据进行转换。我会做一个简单的插补(比如,用一组兴趣的平均值或这么简单的东西),然后找到一些潜在变量,看看会发生什么。从最坏的情况到最坏的情况对da thingKarsten做个套索,你能更具体一点吗?animalito,我正在使用rfImpute,但每次都会在我的数据集上崩溃。对于大数据,您是否推荐其他可靠的自动插补软件包。另外,对稀疏数据插补的有效性有何看法?