R 用NA'移除柱;仅限s和/或零
我有一个样本数据集,看起来与下面的数据集类似:R 用NA'移除柱;仅限s和/或零,r,na,zero,R,Na,Zero,我有一个样本数据集,看起来与下面的数据集类似: d= data.frame(a = c(1,5,56,4,9), b = c(0,0,NA,0,NA), c = c(98,67,NA,3,7), d = c(0,0,0,0,0), e = c(NA,NA,NA,NA,NA)) 这将是: | a | b | c | d | e | |----|:--:|---:|--
d= data.frame(a = c(1,5,56,4,9),
b = c(0,0,NA,0,NA),
c = c(98,67,NA,3,7),
d = c(0,0,0,0,0),
e = c(NA,NA,NA,NA,NA))
这将是:
| a | b | c | d | e |
|----|:--:|---:|---|----|
| 1 | 0 | 98 | 0 | NA |
| 5 | 0 | 67 | 0 | NA |
| 56 | NA | NA | 0 | NA |
| 4 | 0 | 3 | 0 | NA |
| 9 | NA | 7 | 0 | NA |
| a | c |
|----|:--:|
| 1 | 98 |
| 5 | 67 |
| 56 | NA |
| 4 | 3 |
| 9 | 7 |
我需要删除所有具有以下内容的列:
1. NA's and Zeros
2. Only Zeros
3. Only NA's
因此,基于上述数据集,应删除b、d和e列。所以,我首先需要找出哪些列具有这样的条件,然后删除它们
我浏览了这个链接,但我不清楚解决方案。而且,它不能提供我想要的输出
最后的产出将是:
| a | b | c | d | e |
|----|:--:|---:|---|----|
| 1 | 0 | 98 | 0 | NA |
| 5 | 0 | 67 | 0 | NA |
| 56 | NA | NA | 0 | NA |
| 4 | 0 | 3 | 0 | NA |
| 9 | NA | 7 | 0 | NA |
| a | c |
|----|:--:|
| 1 | 98 |
| 5 | 67 |
| 56 | NA |
| 4 | 3 |
| 9 | 7 |
一种选择是基于
NA
或每列中0个元素的数量,创建一个逻辑向量,该向量具有colSums
d[!colSums(is.na(d)|d ==0) == nrow(d)]
# a c
#1 1 98
#2 5 67
#3 56 NA
#4 4 3
#5 9 7
或者另一个选项是将所有0替换为NA
,然后应用is.NA
d[colSums(!is.na(replace(d, d == 0, NA))) > 0]
如果
d[colSums(!is.na(na_if(d, 0))) > 0]
在
base
中,假设我们有不同类型的列:
as.data.frame(过滤器(函数(x)!all(x==“NA”| x==“0”),{lapply(d,as.character)}))
使用dplyr
:
库(dplyr)
d%>%
全部变异(如字符)%>%
选择(其中(colSums(abs(.),na.rm=T)!=0))
输出:
#>a c
#> 1 1 98
#> 2 5 67
#>356NA
#> 4 4 3
#> 5 9 7
将NAs和0存储为字符串非常奇怪,但这就是问题所在
bad_column <- function(z) {
all(z %in% c("NA", "0"))
}
d[, !sapply(d, bad_column), drop = FALSE]
bad_column我们可以使用apply
列方式,删除包含all
、NA
或0的列
d[!apply(d == 0 | is.na(d), 2, all)]
# a c
#1 1 98
#2 5 67
#3 56 NA
#4 4 3
#5 9 7
我已经在我的真实数据集上尝试过了。我不知道为什么,但它不会删除同时包含NA和零的列。即使在上面的示例数据集中,它也不会删除列e。我能想到的另一种方法是用零替换所有NA,然后用全零删除列,但这似乎也不起作用。@hk2根据您的示例,我得到了预期的输出。可能是你用的早一点version@akrun我很抱歉。我做了编辑。它们是数字的,谢谢。我测试了你的数据,它似乎可以很好地返回预期的输出。这篇文章已经编辑过了。我已将它们更改为数字。如果所有列都是数字,则为真。但是,如果其中一些列的数据类型不同,例如字符和日期,则如何修改上述代码?@hk2请编辑您的数据集,并使其代表您的实际数据集