Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/69.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/loops/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 缺少数据和属性选择_R_Statistics_Data Mining - Fatal编程技术网

R 缺少数据和属性选择

R 缺少数据和属性选择,r,statistics,data-mining,R,Statistics,Data Mining,我的数据是1785000条记录,包含271个特征。我试图减少用于构建模型的功能的数量 问题1。在研究数据时,我发现一些特征几乎都是缺失数据,比如只有25条记录对此特征有价值,而其他记录则缺失价值,因此我认为这不够信息,最好删除这些特征,对吗?如果我是对的,我能达到什么水平,我的意思是如果90%,80%,等等。。当我决定摆脱这些特性时,每个特性中都缺少一些值?(考虑到因变量为N/Y,且整个数据中只有%1.157属于Y) 问题2。对于数据集中的每个个体,列出了64个trait_类型,其中每个个体可以

我的数据是1785000条记录,包含271个特征。我试图减少用于构建模型的功能的数量

问题1。在研究数据时,我发现一些特征几乎都是缺失数据,比如只有25条记录对此特征有价值,而其他记录则缺失价值,因此我认为这不够信息,最好删除这些特征,对吗?如果我是对的,我能达到什么水平,我的意思是如果90%,80%,等等。。当我决定摆脱这些特性时,每个特性中都缺少一些值?(考虑到因变量为N/Y,且整个数据中只有%1.157属于Y)

问题2。对于数据集中的每个个体,列出了64个trait_类型,其中每个个体可以取一个值[1、3或5]。我的问题是:如果某个特征类型对所有记录只取值[5]或缺少dat,它是否有任何值,或者我们可以再次消除该特征

第三季度。如果选择删除这些功能,如何从R中的data.frame中删除列

多谢各位

更新: 我正在尝试使用插入符号包来选择变量。 我应用了这个:

ctrl<- rfeControl(functions = lmFuncs, method="cv", verbose = FALSE, returnResamp= 
"final")

lmprofile<- rfe(x,y, sizes = subsets, rfeControl = ctrl)

有什么帮助吗?

仅仅因为一列中的大部分数据缺失并不意味着该列不具有预测性,这与该列中有许多相同的值是一样的

当然有一个截止点,如果该列只能帮助您区分少数情况(许多情况),那么它可以被删除,并且只会对整体模型强度产生一点影响


为了帮助您决定是否保留该列,您可以使用它构建一个单变量模型,其中数据集只包含该列和从属变量,并查看该模型的强度。如果它不比random好多少,那么删除该列可能是安全的。

这里有一种方法可以删除一列,根据它的索引号:
dat我建议您将其分为三个问题。不过,只有问题3适合这样做。前两个应该访问crossvalidated.com。
Error in { : 
  task 1 failed - "contrasts can be applied only to factors with 2 or more levels"
enter code here
In addition: There were 11 warnings (use warnings() to see them)