R 从向量中删除NA值
我有一个巨大的向量,它有两个R 从向量中删除NA值,r,max,min,na,missing-data,R,Max,Min,Na,Missing Data,我有一个巨大的向量,它有两个NA值,我试图找到向量中的最大值(向量都是数字),但我不能这样做,因为NA值 如何删除NA值以便计算最大值?尝试?max,您将看到它实际上有一个NA.rm=参数,默认设置为FALSE。(这是许多其他R函数的常见默认值,包括sum(),mean(),等等。) 设置na.rm=TRUE正好满足您的要求: d <- c(1, 100, NA, 10) max(d, na.rm=TRUE) 最后一点注意:其他函数(例如table()、lm()、和sort())具有使用
NA
值,我试图找到向量中的最大值(向量都是数字),但我不能这样做,因为NA
值
如何删除
NA
值以便计算最大值?尝试?max
,您将看到它实际上有一个NA.rm=
参数,默认设置为FALSE
。(这是许多其他R函数的常见默认值,包括sum()
,mean()
,等等。)
设置na.rm=TRUE
正好满足您的要求:
d <- c(1, 100, NA, 10)
max(d, na.rm=TRUE)
最后一点注意:其他函数(例如
table()
、lm()
、和sort()
)具有使用不同名称(并提供不同选项)的NA
相关参数。因此,如果NA
导致函数调用出现问题,那么值得检查函数参数中的内置解决方案。我发现通常已经有一个了。你可以调用max(vector,na.rm=TRUE)
。一般来说,您可以使用na.omit()
函数。?max
显示有一个额外的参数na.rm
,可以设置为TRUE
除此之外,如果您真的想删除NA
s,只需使用以下方法:
myvec[!is.na(myvec)]
na.omit
函数是许多回归例程内部使用的函数:
vec <- 1:1000
vec[runif(200, 1, 1000)] <- NA
max(vec)
#[1] NA
max( na.omit(vec) )
#[1] 1000
vec以防万一,R新手想要对原始问题的简化答案
如何从向量中删除NA值
这是:
假设您有一个向量foo
,如下所示:
foo = c(1:10, NA, 20:30)
运行length(foo)
22
nona_foo = foo[!is.na(foo)]
length(nona\u foo)
为21,因为NA值已被删除
请记住is.na(foo)
返回一个布尔矩阵,因此使用与此值相反的foo
索引将为您提供所有非na元素 使用(与列表和向量一起使用)
其优点是易于使用管道;或者使用内置的子集设置功能[
:
v %>% discard(is.na)
v %>% `[`(!is.na(.))
请注意,na.omit
对列表不起作用:
> x <- list(a=1, b=2, c=NA)
> na.omit(x)
$a
[1] 1
$b
[1] 2
$c
[1] NA
>x na.省略(x)
一美元
[1] 1
b美元
[1] 2
$c
[1] NA
我运行了一个快速基准测试,比较了这两种基本方法,结果发现x[!is.na(x)]
比na.omit
快。用户qwr
建议我也尝试purr::dicard
,这被证明是非常缓慢的(尽管我很乐意就我的实现和测试发表评论!)
以下是x[!is.na(x)]
vsna.omit
的原始测试供参考:
microbenchmark::microbenchmark(
purrr::map(airquality,function(x) {x[!is.na(x)]}),
purrr::map(airquality,na.omit),
times = 1000000)
Unit: microseconds
expr min lq mean median uq max neval cld
map(airquality, function(x) { x[!is.na(x)] }) 53.0 56.6 86.48231 58.1 64.8 414195.2 1e+06 a
map(airquality, na.omit) 85.3 90.4 134.49964 92.5 104.9 348352.8 1e+06 b
我认为这是最好的。na.rm和na.omit在输出中添加了相当多的垃圾。除了na.omit
还有一个数据帧方法,所以更一般。这是一个非常糟糕的主意。它失败了,并为所有NAs的d
提供了-Inf
。@user3932000为了让其他人清楚,你的抱怨实际上是关于基本R函数max()
的行为(例如,当执行max(c(NA,NA)
时).就个人而言,我认为它的行为是合理的;我希望它是以这种方式构建的,这样当你做a@user3932000这样的事情时,你会得到预期的结果。有点切题,R作为数据分析平台的诸多优势之一是它对缺失数据的复杂处理,这是其作者非常仔细思考的结果ors。(如果您对这个主题感兴趣,可以从那些致力于将R-likeNA
-处理工具合并到Python优秀的NumPy包中的程序员的角度,对其中涉及的一些问题进行很好的讨论。)@ USSR332000:这个答案真的很糟糕吗?你认为NULL SET的最大值是什么?@ CliffAB没有最大值。∞ (及+∞), 但这并不总是理想的或直观的。而且,当你从NA
s的向量中删除所有NA
s时,你会期望一个空向量,而不是-∞.您应该尝试purrr:discard
> x <- list(a=1, b=2, c=NA)
> na.omit(x)
$a
[1] 1
$b
[1] 2
$c
[1] NA
microbenchmark::microbenchmark(
purrr::map(airquality,function(x) {x[!is.na(x)]}),
purrr::map(airquality,na.omit),
purrr::map(airquality, ~purrr::discard(.x, .p = is.na)),
times = 1e6)
Unit: microseconds
expr min lq mean median uq max neval cld
purrr::map(airquality, function(x) { x[!is.na(x)] }) 66.8 75.9 130.5643 86.2 131.80 541125.5 1e+06 a
purrr::map(airquality, na.omit) 95.7 107.4 185.5108 129.3 190.50 534795.5 1e+06 b
purrr::map(airquality, ~purrr::discard(.x, .p = is.na)) 3391.7 3648.6 5615.8965 4079.7 6486.45 1121975.4 1e+06 c
microbenchmark::microbenchmark(
purrr::map(airquality,function(x) {x[!is.na(x)]}),
purrr::map(airquality,na.omit),
times = 1000000)
Unit: microseconds
expr min lq mean median uq max neval cld
map(airquality, function(x) { x[!is.na(x)] }) 53.0 56.6 86.48231 58.1 64.8 414195.2 1e+06 a
map(airquality, na.omit) 85.3 90.4 134.49964 92.5 104.9 348352.8 1e+06 b