R：计算每个ID的每日变量数_R_Count

R：计算每个ID的每日变量数

R：计算每个ID的每日变量数,r,count,R,Count,我以前也问过类似的问题（），这次，我还想计算每天和每个ID的vDistrict数量，但现在“District”不仅意味着一天不同的v，还意味着这一天和未来几天不同的v 例如，如果在第二天有一个v1，但也在前一天，我们不计算第二天的v1 ID1: 第1天：第1天的v1/v2----->2 第2天：第2天的v1/v3----->1 第3天：第3天v3----->0 ID2 第1天：第4天------第1天大于1 第2天：第2天的v5/v4/v1----->2 第3天：第3天v3/v4----->1

我以前也问过类似的问题（），这次，我还想计算每天和每个ID的vDistrict数量，但现在“District”不仅意味着一天不同的

，还意味着这一天和未来几天不同的

例如，如果在第二天有一个

v1

，但也在前一天，我们不计算第二天的v1

ID1:

第1天：第1天的v1/v2----->2

第2天：第2天的v1/v3----->1

第3天：第3天v3----->0

ID2

第1天：第4天------第1天大于1

第2天：第2天的v5/v4/v1----->2

第3天：第3天v3/v4----->1

以下是我的数据：

ID         Day             v
ID1         1              v1
ID1         1              v1
ID1         1              v2
ID1         2              v1
ID1         2              v3
ID1         3              v3
ID1         3              v3
ID1         3              v3
ID2         1              v4
ID2         2              v5
ID2         2              v5
ID2         2              v4
ID2         2              v1
ID2         3              v3
ID2         3              v4

根据以上数据，我希望得到如下结果：

ID         Day             v         daily_v_distinguish_ID
ID1         1              v1            2
ID1         1              v1            NA
ID1         1              v2            NA
ID1         2              v1            1
ID1         2              v3            NA
ID1         3              v3            0
ID1         3              v3            NA
ID1         3              v3            NA
ID2         1              v4            1
ID2         2              v5            2
ID2         2              v5            NA
ID2         2              v4            NA
ID2         2              v1            NA
ID2         3              v3            1
ID2         3              v4            NA

如果我们使用

setDT（df1）[，daily_v_ID:=c（uniqueN（v），rep（NA，.N-1）），by=（ID，Day）]

，我们没有将这一天的

与前几天进行比较。

我们可以使用

数据.table

来创建“daily_v_ID”。将“data.frame”转换为“data.table”（

setDT（df1）

），按“ID”分组。我们基于“v”中未重复的元素创建逻辑索引。在下一步中，我们按“ID”和“Day”列分组，获得“indx”的

和

，并用“NA”连接以填充每个组中的其余元素，并将（

：=

分配为“daily\v\u-ID”

 library(data.table)
 setDT(df1)[, indx:=!duplicated(v) ,.(ID)
    ][, daily_v_distinguish_ID:= c(sum(indx),rep(NA, .N-1)) , .(ID, Day)
    ][,indx:=NULL]
df1
#     ID Day  v daily_v_distinguish_ID
# 1: ID1   1 v1                      2
# 2: ID1   1 v1                     NA
# 3: ID1   1 v2                     NA
# 4: ID1   2 v1                      1
# 5: ID1   2 v3                     NA
# 6: ID1   3 v3                      0
# 7: ID1   3 v3                     NA
# 8: ID1   3 v3                     NA
# 9: ID2   1 v4                      1
#10: ID2   2 v5                      2
#11: ID2   2 v5                     NA
#12: ID2   2 v4                     NA
#13: ID2   2 v1                     NA
#14: ID2   3 v3                      1
#15: ID2   3 v4                     NA

使用

dplyr

的类似选项是

library(dplyr)
df1 %>% 
   group_by(ID) %>%
   mutate(ind=!duplicated(v)) %>%
   group_by(Day, add=TRUE)%>% 
   mutate(daily_v_distinguish_ID=c(sum(ind), rep(NA, n()-1))) %>% 
   select(-ind)

或者使用

ave

from

base R

with(df1, ave(!duplicated(df1[-2]), ID, Day, FUN=function(x) 
                  c(sum(x), rep(NA, length(x)-1))))
#[1]  2 NA NA  1 NA  0 NA NA  1  2 NA NA NA  1 NA

数据

df1@akrun我们不会对不同的ID进行比较。对于ID2，我们计算第2天的v1
，甚至ID1的v1发生在第1天。
df1 <- structure(list(ID = c("ID1", "ID1", "ID1", "ID1", "ID1", "ID1", 
"ID1", "ID1", "ID2", "ID2", "ID2", "ID2", "ID2", "ID2", "ID2"
), Day = c(1L, 1L, 1L, 2L, 2L, 3L, 3L, 3L, 1L, 2L, 2L, 2L, 2L, 
3L, 3L), v = c("v1", "v1", "v2", "v1", "v3", "v3", "v3", "v3", 
"v4", "v5", "v5", "v4", "v1", "v3", "v4")), .Names = c("ID", 
"Day", "v"), class = "data.frame", row.names = c(NA, -15L))