R 重新编码多个缺少的值

R 重新编码多个缺少的值,r,data.table,R,Data.table,设置值的最有效方法是什么?使用实际列名在“a”和“b”以及“c”之间设置值:-5、-3、4到“NA”?base R中的一个选项(不带任何包)是复制值,进行比较并分配给NA set.seed(1) data=data.frame("a"=sample(-5:5, 20, r=T), "b"=sample(-5:5, 20, r=T), "c"=sample(-5:5, 20, r=T)) 在tidyverse中,我们可以在 data[nm1] <- lapply(data[nm1], f

设置值的最有效方法是什么?

使用实际列名在“a”和“b”以及“c”之间设置值:-5、-3、4到“NA”?
base R
中的一个选项(不带任何包)是复制值,进行比较并分配给
NA

set.seed(1)
data=data.frame("a"=sample(-5:5, 20, r=T),
"b"=sample(-5:5, 20, r=T),
"c"=sample(-5:5, 20, r=T))

tidyverse
中,我们可以在

data[nm1] <- lapply(data[nm1], function(x) replace(x, x %in% c(-5, -3, 4), NA))
对于多个值

library(dplyr)
data %>% 
    mutate_at(vars(nm1),  ~ case_when(!. %in% c(-5, -3, 4) ~ .))

使用
data.table
,我们可以使用
fcase

data %>% 
   mutate_at(vars(nm1),  ~ case_when(. %in% 4 ~ 99L, !. %in% c(-5, -3) ~ .))
#    a  b  c
#1   3  3  3
#2  -2  3  2
#3   1 -1  3
#4  NA -1  1
#5  -4 -4  2
#6   1  4  0
#7   5  3 99
#8  -4 -5  1
#9   5 -2 NA
#10 NA -3 99
#11 NA  0  0
#12 -1  4  2
#13 -1  4 -4
#14 99  0 -4
#15  0 -2  0
#16 99 -2  0
#17  1  4 NA
#18  3  3 NA
#19 -1  1 NA
#20 -1  0  2

使用
dplyr
,您可以尝试:

library(data.table)
setDT(data)[, (nm1) := lapply(.SD, function(x) fcase(x %in% 4 ~ 99L, !x %in% c(-5, -3) ~ x)), .SDcols = nm1]

A
数据表
版本:

data %>%
 mutate_at(vars(a, b, c), ~ replace(., . %in% c(-5, -3, 4), NA))

    a  b  c
1  NA  5 NA
2  -1 NA  2
3   1  2  3
4  NA -4  1
5  NA NA  0
6  NA -1  3
7   5 NA NA
8   2 -1  0
9   1 NA  3
10 NA -2  2
输出:

library(data.table)

setDT(data)[, lapply(.SD, function(x) replace(x, x %in% c(-5, -3, 4), NA)), .SDcols = c('a', 'b', 'c')]

假设我只想按名称对列“a”和“c”进行替换?@bvowe在这里,我假设要替换的值对应于每个列谢谢,但实际上要替换的值在所有列中,因此我想用NA替换a和c中的-5和4。我试过这个,但它只取代了-5@bvowe我以为是对应的栏目。更新后的铺层是完美的。作为一个有趣的练习,你想用NA替换-5和-3,但用99替换4可以一次完成吗?
data %>%
 mutate_at(vars(a, b, c), ~ replace(., . %in% c(-5, -3, 4), NA))

    a  b  c
1  NA  5 NA
2  -1 NA  2
3   1  2  3
4  NA -4  1
5  NA NA  0
6  NA -1  3
7   5 NA NA
8   2 -1  0
9   1 NA  3
10 NA -2  2
library(data.table)

setDT(data)[, lapply(.SD, function(x) replace(x, x %in% c(-5, -3, 4), NA)), .SDcols = c('a', 'b', 'c')]
     a  b  c
 1:  3  3  3
 2: -2  3  2
 3:  1 -1  3
 4: NA -1  1
 5: -4 -4  2
 6:  1 NA  0
 7:  5  3 NA
 8: -4 NA  1
 9:  5 -2 NA
10: NA NA NA
11: NA  0  0
12: -1 NA  2
13: -1 NA -4
14: NA  0 -4
15:  0 -2  0
16: NA -2  0
17:  1 NA NA
18:  3  3 NA
19: -1  1 NA
20: -1  0  2