将R中数据表中的连续行分组
我找不到解决这个简单问题的办法。 我有这样一个数据框:将R中数据表中的连续行分组,r,data.table,R,Data.table,我找不到解决这个简单问题的办法。 我有这样一个数据框: df = data.table(X1 = 1:12, X2 = LETTERS[1:12]) df[, group := (1:.N - 1) %/% 3] df # X1 X2 group # 1: 1 A 0 # 2: 2 B 0 # 3: 3 C 0 # 4: 4 D 1 # 5: 5 E 1 # 6: 6 F 1 # 7: 7 G 2 # 8
df = data.table(X1 = 1:12, X2 = LETTERS[1:12])
df[, group := (1:.N - 1) %/% 3]
df
# X1 X2 group
# 1: 1 A 0
# 2: 2 B 0
# 3: 3 C 0
# 4: 4 D 1
# 5: 5 E 1
# 6: 6 F 1
# 7: 7 G 2
# 8: 8 H 2
# 9: 9 I 2
#10: 10 J 3
#11: 11 K 3
#12: 12 L 3
我想创建一个名为group
的新变量,将连续行按3分组。例如:行1-3将是组0,行4-6将是组2,依此类推
预期结果:
X1 X2 group
1: 1 A 0
2: 2 B 0
3: 3 C 0
4: 4 D 1
5: 5 E 1
6: 6 F 1
7: 7 G 2
8: 8 H 2
9: 9 I 2
10: 10 J 3
11: 11 K 3
12: 12 L 3
对于此具有快速功能的特定情况:
group <- function(dt,groupsize)
{
if(nrow(dt) %% groupsize != 0){
print("Groupsize must be divisor of nrow!")
return()
}
return(cbind(dt,data.frame(group=unlist(lapply(1:(nrow(dt) / groupsize),function(i){rep(i,groupsize)}))))))
}
组对于此具有快速功能的特定病例:
group <- function(dt,groupsize)
{
if(nrow(dt) %% groupsize != 0){
print("Groupsize must be divisor of nrow!")
return()
}
return(cbind(dt,data.frame(group=unlist(lapply(1:(nrow(dt) / groupsize),function(i){rep(i,groupsize)}))))))
}
group您也可以使用rep
df[, group := rep(1:(.N / 3) - 1, each = 3)]
df
# X1 X2 group
# 1: 1 A 0
# 2: 2 B 0
# 3: 3 C 0
# 4: 4 D 1
# 5: 5 E 1
# 6: 6 F 1
# 7: 7 G 2
# 8: 8 H 2
# 9: 9 I 2
#10: 10 J 3
#11: 11 K 3
#12: 12 L 3
您也可以使用rep
df[, group := rep(1:(.N / 3) - 1, each = 3)]
df
# X1 X2 group
# 1: 1 A 0
# 2: 2 B 0
# 3: 3 C 0
# 4: 4 D 1
# 5: 5 E 1
# 6: 6 F 1
# 7: 7 G 2
# 8: 8 H 2
# 9: 9 I 2
#10: 10 J 3
#11: 11 K 3
#12: 12 L 3
这里有一个方法
consecutive_groups <- function(df, group_length = 3) {
n_groups <- if_else(nrow(df) %% group_length == 0L,
nrow(df) / group_length,
as.integer(nrow(df) / group_length) + 1 )
df %>% mutate(row_number = row_number(),
group = ntile(row_number, n_groups) - 1) %>%
select(-row_number)
}
consecutive_groups(df, 3)
# X1 X2 group
# 1 1 A 0
# 2 2 B 0
# 3 3 C 0
# 4 4 D 1
# 5 5 E 1
# 6 6 F 1
# 7 7 G 2
# 8 8 H 2
# 9 9 I 2
# 10 10 J 3
# 11 11 K 3
# 12 12 L 3
连续_组%
选择(-row\U编号)
}
连续组(df,3)
#x1x2群
#11A0
#2B0
#3C0
#4d1
#5 E 1
#6f1
#7 G 2
#8小时2
#9我2
#10 J 3
#11 K 3
#12升3
这里是一种方法
consecutive_groups <- function(df, group_length = 3) {
n_groups <- if_else(nrow(df) %% group_length == 0L,
nrow(df) / group_length,
as.integer(nrow(df) / group_length) + 1 )
df %>% mutate(row_number = row_number(),
group = ntile(row_number, n_groups) - 1) %>%
select(-row_number)
}
consecutive_groups(df, 3)
# X1 X2 group
# 1 1 A 0
# 2 2 B 0
# 3 3 C 0
# 4 4 D 1
# 5 5 E 1
# 6 6 F 1
# 7 7 G 2
# 8 8 H 2
# 9 9 I 2
# 10 10 J 3
# 11 11 K 3
# 12 12 L 3
连续_组%
选择(-row\U编号)
}
连续组(df,3)
#x1x2群
#11A0
#2B0
#3C0
#4d1
#5 E 1
#6f1
#7 G 2
#8小时2
#9我2
#10 J 3
#11 K 3
#12升3
Mod operator%/%
是一种简单的方法,可以执行以下操作:
df = data.table(X1 = 1:12, X2 = LETTERS[1:12])
df[, group := (1:.N - 1) %/% 3]
df
# X1 X2 group
# 1: 1 A 0
# 2: 2 B 0
# 3: 3 C 0
# 4: 4 D 1
# 5: 5 E 1
# 6: 6 F 1
# 7: 7 G 2
# 8: 8 H 2
# 9: 9 I 2
#10: 10 J 3
#11: 11 K 3
#12: 12 L 3
Mod operator%/%
是执行以下操作的简单方法:
df = data.table(X1 = 1:12, X2 = LETTERS[1:12])
df[, group := (1:.N - 1) %/% 3]
df
# X1 X2 group
# 1: 1 A 0
# 2: 2 B 0
# 3: 3 C 0
# 4: 4 D 1
# 5: 5 E 1
# 6: 6 F 1
# 7: 7 G 2
# 8: 8 H 2
# 9: 9 I 2
#10: 10 J 3
#11: 11 K 3
#12: 12 L 3
我对data.table不太熟悉,但这很有效:df$groupTranslating to data.table:df[,group:=(1.N-1)%/%3]
@Gregor perfect,你可能想用这个来制定一个答案。我对data.table不太熟悉,但这很有效:df$groupTranslating to data.table:df[,group:=(1.N-1)%/%3]
@Gregor perfect,你可能想用这个来制定一个答案。lappy
只会增加效率和复杂性unlist(lapply(1:(nrow(dt)/groupsize),function(i){rep(i,groupsize)})
是一个很长的编写过程rep(1:(nrow(dt)/groupsize),each=groupsize)
。我不知道rep中的此选项,非常感谢。lapply的lapply
只是增加了低效率和复杂性unlist(lapply(1:(nrow(dt)/groupsize),function(i){rep(i,groupsize)})
是一个很长的编写过程rep(1:(nrow(dt)/groupsize),each=groupsize)
。在rep中不知道此选项,非常感谢。