具有多个空值的R中大稀疏数据的变量选择方法
我正在处理至少有100K行和至少10K个变量的数据集。有大量的空值。大多数变量是数值型的,少数是分类型的 我想使用类似randomForest的方法来选择变量,但是NAs当然是个问题具有多个空值的R中大稀疏数据的变量选择方法,r,bigdata,na,decision-tree,R,Bigdata,Na,Decision Tree,我正在处理至少有100K行和至少10K个变量的数据集。有大量的空值。大多数变量是数值型的,少数是分类型的 我想使用类似randomForest的方法来选择变量,但是NAs当然是个问题 对于此类数据,有哪些稳健的变量选择方法?由于我无法添加注释,我将尝试回答。。。我处理的数据类型与你类似。我所做的是首先处理长格式的数据,并为每个“潜在预测值”计算列联表,我使用过滤器特征选择方法为我的数据集选择好的预测值。我将尝试举一个例子: 长格式数据: ID |预测器|预测器|值|类 1 | PRED|u
对于此类数据,有哪些稳健的变量选择方法?由于我无法添加注释,我将尝试回答。。。我处理的数据类型与你类似。我所做的是首先处理长格式的数据,并为每个“潜在预测值”计算列联表,我使用过滤器特征选择方法为我的数据集选择好的预测值。我将尝试举一个例子:
- 长格式数据:
我希望这有助于或至少提供了一些解决问题的思路……也许你应该在训练回归树之前对数据进行转换。我会做一个简单的插补(比如,用一组兴趣的平均值或这么简单的东西),然后找到一些潜在变量,看看会发生什么。从最坏的情况到最坏的情况对da thingKarsten做个套索,你能更具体一点吗?animalito,我正在使用rfImpute,但每次都会在我的数据集上崩溃。对于大数据,您是否推荐其他可靠的自动插补软件包。另外,对稀疏数据插补的有效性有何看法?