快速从data.frame中删除零方差变量_R_Data Management

快速从data.frame中删除零方差变量

快速从data.frame中删除零方差变量,r,data-management,R,Data Management,我有一个由我无法控制的过程生成的大型data.frame，它可能包含也可能不包含方差为零的变量（即所有观察值都相同）。我想根据这些数据建立一个预测模型，显然这些变量没有用下面是我当前用于从data.frame中删除此类变量的函数。它目前基于apply，我想知道是否有任何明显的方法来加速这个函数，以便它能够在具有大量（400或500）变量的非常大的数据集上快速工作 set.seed(1) dat <- data.frame( A=factor(rep("X",10),levels=

我有一个由我无法控制的过程生成的大型data.frame，它可能包含也可能不包含方差为零的变量（即所有观察值都相同）。我想根据这些数据建立一个预测模型，显然这些变量没有用

下面是我当前用于从data.frame中删除此类变量的函数。它目前基于

apply

，我想知道是否有任何明显的方法来加速这个函数，以便它能够在具有大量（400或500）变量的非常大的数据集上快速工作

set.seed(1)
dat <- data.frame(
    A=factor(rep("X",10),levels=c('X','Y')),
    B=round(runif(10)*10),
    C=rep(10,10),
    D=c(rep(10,9),1),
    E=factor(rep("A",10)),
    F=factor(rep(c("I","J"),5)),
    G=c(rep(10,9),NA)
)
zeroVar <- function(data, useNA = 'ifany') {
    out <- apply(data, 2, function(x) {length(table(x, useNA = useNA))})
    which(out==1)
}

简单地说，不要使用

表

——它在数字向量上的速度非常慢，因为它会将它们转换为字符串。我可能会使用类似

var0 <- unlist(lapply(df, function(x) 0 == var(if (is.factor(x)) as.integer(x) else x)))

var0好吧，为自己节省一些编码时间：
Rgames: foo
      [,1]  [,2] [,3]
 [1,]    1 1e+00    1
 [2,]    1 2e+00    1
 [3,]    1 3e+00    1
 [4,]    1 4e+00    1
 [5,]    1 5e+00    1
 [6,]    1 6e+00    2
 [7,]    1 7e+00    3
 [8,]    1 8e+00    1
 [9,]    1 9e+00    1
 [10,]    1 1e+01    1
Rgames: sd(foo)
[1] 0.000000e+00 3.027650e+00 6.749486e-01
Warning message:
sd(<matrix>) is deprecated.
 Use apply(*, 2, sd) instead.   

Rgames:foo
[,1]  [,2] [,3]
[1，]1 1e+00 1
[2，]1 2e+00 1
[3，]1 3e+00 1
[4，]14E+001
[5，]1 5e+00 1
[6，]1 6e+00 2
[7，]1 7e+00 3
[8，]1 8e+00 1
[9，]1 9e+00 1
[10，]1 1e+01 1
Rgames:sd（foo）
[1] 0.000000e+00 3.027650e+00 6.749486e-01
警告信息：
sd（）已弃用。
改为使用apply（*，2，sd）。

为了避免令人讨厌的浮点舍入，使用输出向量，我将其称为“bar”，并执行类似于bar[bar<2*.Machine$double.eps]的操作。您可能还需要查看插入符号包中的nearZeroVar（）
函数
如果1000个事件中有一个事件，丢弃这些数据可能是个好主意（但这取决于模型）nearZeroVar（）
可以做到这一点。
不要使用table（）
-这类操作非常慢。一个选项是长度（唯一（x））
：
Simon的解决方案在本例中同样快速：
> system.time(replicate(1000, which(!unlist(lapply(dat, 
+             function(x) 0 == var(if (is.factor(x)) as.integer(x) else x))))))
   user  system elapsed 
  0.392   0.000   0.395

但你必须看看它们的规模是否与实际问题的规模相似
 使用因子
来计算唯一元素的数量，并使用sapply循环如何
：
dat[sapply(dat, function(x) length(levels(factor(x)))>1)]
   B  D F
1  3 10 I
2  4 10 J
3  6 10 I
4  9 10 J
5  2 10 I
6  9 10 J
7  9 10 I
8  7 10 J
9  6 10 I
10 1  1 J

默认情况下，NAs被排除在外，但这可以通过factor
的排除参数进行更改：
dat[sapply(dat, function(x) length(levels(factor(x,exclude=NULL)))>1)]
   B  D F  G
1  3 10 I 10
2  4 10 J 10
3  6 10 I 10
4  9 10 J 10
5  2 10 I 10
6  9 10 J 10
7  9 10 I 10
8  7 10 J 10
9  6 10 I 10
10 1  1 J NA

我认为零方差等于常数，一个人不用做任何算术运算就可以四处走动。我希望range（）的性能优于var（），但我尚未验证这一点：
removeConstantColumns <- function(a_dataframe, verbose=FALSE) {
  notConstant <- function(x) {
    if (is.factor(x)) x <- as.integer(x)
    return (0 != diff(range(x, na.rm=TRUE)))
  }
  bkeep <- sapply(a_dataframe, notConstant)
  if (verbose) {
    cat('removeConstantColumns: '
      , ifelse(all(bkeep)
        , 'nothing'
        , paste(names(a_dataframe)[!bkeep], collapse=',')
      , ' removed',  '\n')
  }
  return (a_dataframe[, bkeep])
}

removeConstantColumns使用Caret
包和函数nearZeroVar

require(caret)
NZV<- nearZeroVar(dataset, saveMetrics = TRUE)
NZV[NZV[,"zeroVar"] > 0, ] 
NZV[NZV[,"zeroVar"] + NZV[,"nzv"] > 0, ]

require（插入符号）
NZV 0，]
NZV[NZV[，“zeroVar”]+NZV[，“NZV”]>0，]
检查此自定义功能。我没有在包含100多个变量的数据帧上尝试它
remove_low_variance_cols <- function(df, threshold = 0) {
  n <- Sys.time() #See how long this takes to run
  remove_cols <- df %>%
    select_if(is.numeric) %>%
    map_dfr(var) %>%
    gather() %>% 
    filter(value <= threshold) %>%
    spread(key, value) %>%
    names()

  if(length(remove_cols)) {
    print("Removing the following columns: ")
    print(remove_cols)
  }else {
    print("There are no low variance columns with this threshold")
  }
  #How long did this script take?
  print(paste("Time Consumed: ", Sys.time() - n, "Secs."))
  return(df[, setdiff(names(df), remove_cols)])
}

删除\u低\u差异\u列%
聚集（）%>%
过滤器（值%
排列（键，值）%>%
姓名（）
if（长度（删除列））{
打印（“删除以下列：”）
打印（删除列）
}否则{
打印（“没有具有此阈值的低方差列”）
}
#这个脚本花了多长时间？
打印（粘贴（“所用时间：”，Sys.Time（）-n，“秒”））
返回（df[，setdiff（名称（df），删除列）]）
}
因为我是一个不断用谷歌搜索同一个问题的白痴，让我留下一个我已经确定的tidyverse
方法：
library(tidyverse)

df <- df %>%
  select(
    - {
      df %>%
        map_dbl(~ length(table(.x, useNA = "ifany"))) %>%
        {which(. == 1)} %>%
        names()
    }
  )

库（tidyverse）
df%
挑选(
- {
df%>%
地图直径（~length（表格（.x，useNA=“ifany”））%>%
{其中（.==1）}%>%
姓名（）
}
)

我想这可以缩短，但我太累了！
Carl-用发布的数据框试试-由于各种因素，你会得到NA
s；）@Simon-是的，我知道。。。我跳过了清理和/或验证源数据的步骤。我为懒惰辩护。谢谢你的建议，我实际上一直在使用nearZeroVar（）
，这个问题就是基于这个函数的。我偶尔会发现自己只想删除零方差变量，并以另一种方式处理“近零方差”变量（例如，稍后将几个近零方差变量组合成一个新变量）。我只是在使用nearZeroVar（）
时尝试了这种方法，设置saveMetrics=T
，然后输出将同时为您提供zeroVar
（0方差）和nzv
（接近0方差），通过在函数中设置其他阈值，您可以确定接近0方差的不同值百分比的截止值。因此，我认为这种方法更简单、更灵活。对于包含所有NA
s的列，要将其设置为TRUE
，对于包含NA
s和其他值的列，要将其设置为FALSE
有多难？很好。在这里或者更一般地说，是否有任何理由更喜欢unlist（lappy（…）
而不是sapply（…）
？嗯，sapply
调用lappy
，然后对结果进行更多的处理，最后调用unlist
，所以我喜欢使用更原始的函数，这样我就知道它们做什么了-这只是我个人的偏好（有时更有效）。简单-只需通过na.rm
传递到var
，就像使用table
一样：var0，正如我在（较弱的）解决方案中指出的，小心长度（唯一的）（x） ）
除非您确定x都是整数。一个有效的解决方案实际上似乎是，它（！unlist（lappy（dat，+函数（x）0==var（if（is.factor（x））as.integer（x）else x））），因为当前解决方案正好引用了0个方差列。
require(caret)
NZV<- nearZeroVar(dataset, saveMetrics = TRUE)
NZV[NZV[,"zeroVar"] > 0, ] 
NZV[NZV[,"zeroVar"] + NZV[,"nzv"] > 0, ]

remove_low_variance_cols <- function(df, threshold = 0) {
  n <- Sys.time() #See how long this takes to run
  remove_cols <- df %>%
    select_if(is.numeric) %>%
    map_dfr(var) %>%
    gather() %>% 
    filter(value <= threshold) %>%
    spread(key, value) %>%
    names()

  if(length(remove_cols)) {
    print("Removing the following columns: ")
    print(remove_cols)
  }else {
    print("There are no low variance columns with this threshold")
  }
  #How long did this script take?
  print(paste("Time Consumed: ", Sys.time() - n, "Secs."))
  return(df[, setdiff(names(df), remove_cols)])
}

library(tidyverse)

df <- df %>%
  select(
    - {
      df %>%
        map_dbl(~ length(table(.x, useNA = "ifany"))) %>%
        {which(. == 1)} %>%
        names()
    }
  )