R中观测数据的年龄计算
我有非常简单的大观测数据,假设结构如下:R中观测数据的年龄计算,r,dataframe,R,Dataframe,我有非常简单的大观测数据,假设结构如下: > df = data.frame(ID = c("oak", "birch", rep("oak",2), "pine", "birch", "oak", rep("pine",2), "birch", "oak"), + yearobs = c(rep(1998,3), rep(1999,2), rep(2000,3),rep(2001,2), 2002)) > df ID yearobs 1
> df = data.frame(ID = c("oak", "birch", rep("oak",2), "pine", "birch", "oak", rep("pine",2), "birch", "oak"),
+ yearobs = c(rep(1998,3), rep(1999,2), rep(2000,3),rep(2001,2), 2002))
> df
ID yearobs
1 oak 1998
2 birch 1998
3 oak 1998
4 oak 1999
5 pine 1999
6 birch 2000
7 oak 2000
8 pine 2000
9 pine 2001
10 birch 2001
11 oak 2002
我想做的是通过计算每个唯一ID(本例中的树种)的年数差异(max(yearobs)-min(yearobs)
)来计算年龄。我曾尝试使用lubridate
+dplyr
软件包,但是,在我的数据中,每个唯一ID的观察次数各不相同,我希望以最快的方式创建一个年龄列,而不单独存储最小值和最大值(因为我的数据量很大,所以避免在此处循环)
期望输出:
ID age
1 oak 4
2 birch 3
3 pine 3
任何建议都将不胜感激。一个选项是按“ID”分组,并获得“yearobs”列的
min
和max
之间的差异
library(dplyr)
df %>%
group_by(ID) %>%
summarise(age = max(yearobs) - min(yearobs))
另外,如果我们需要快速完成,那么
data.table
将是另一种选择
library(data.table)
setDT(df)[, .(age = max(yearobs) - min(yearobs)), by = ID]
或使用
base R
by(df['yearobs'], df$ID, FUN = function(x) max(x)- min(x))
在base R中,您可以执行以下操作:
aggregate(yearobs ~ ID, data = df, FUN = function(x) max(x) - min(x))
# ID yearobs
# 1 birch 3
# 2 oak 4
# 3 pine 2
library(dplyr)df%group\u by(ID)%%>%mutate(age=max(yearobs)-min(yearobs))
谢谢!超级快,尽管我更喜欢R-base选项。事实上我投了更高的票!我的错我没有在我的帖子里说。再次感谢。@DSA我的观点是,我关注的是效率部分,而不是base R
击败了我。我的函数应该是function(x)diff(range(x))
!在我的操作系统中,“max-min”似乎更快!不过很酷。