R 折叠行（如果在同一组中）_R_Dplyr

R 折叠行（如果在同一组中）

R 折叠行（如果在同一组中）,r,dplyr,R,Dplyr,大家好，我有一个数据帧，例如： Group family 1 A Canidae 2 B Canidae 3 A Felidae 4 B Canidae 5 C Elephantidae 6 C Galinacae 7 D Galinacae 8 D Siuridae 9 E Apidae 我想折叠组存在家族的组（例如：犬科存在于A和

大家好，我有一个数据帧，例如：

  Group       family
1     A      Canidae
2     B      Canidae
3     A      Felidae
4     B      Canidae
5     C Elephantidae
6     C    Galinacae
7     D    Galinacae
8     D     Siuridae
9     E       Apidae

我想折叠

组

存在

家族

的组（例如：

犬科存在于A和B 因此，我将每个组的所有唯一值合并并添加到

family2

中

Group family2
A,B   Canidae,Felidae

然后我继续，我看到象甲科和加利那科都在
C
中，thta加利那科也在
D
中，所以我崩溃了：

Group family2 A,B Canidae,Felidae C,D Elephantidae,Galinacae,Siuridae
最后，我们应该得到：

Group family2 A,B Canidae,Felidae C,D Elephantidae,Galinacae,Siuridae E Apidae
有人有主意吗
这里是为了一个像这样的东西的数据请？非常感谢您的帮助和时间
以下是数据（如果有帮助）：

structure(list(Group = structure(c(1L, 2L, 1L, 2L, 3L, 3L, 4L, 4L, 5L), .Label = c("A", "B", "C", "D", "E"), class = "factor"), family = structure(c(2L, 2L, 4L, 2L, 3L, 5L, 5L, 6L, 1L), .Label = c("Apidae", "Canidae", "Elephantidae", "Felidae", "Galinacae", "Siuridae" ), class = "factor")), class = "data.frame", row.names = c(NA, -9L))

这是我的解决方案，其中包含一些查找函数

# A lookup function that look for intersect between group # if there are at least one intersect - those group will be combined look_up_group <- function(one_group, lookup_list) { matched_list <- map(lookup_list, function(x) { tryCatch( { intersect(x, one_group) }, error = function(e) { stop(paste0("Error in lookup function: one_group=", one_group, "; x=", x)) }) }) index <- which(unlist(map(matched_list, function(x) { length(x) > 0 }))) sort(unique(unlist(lookup_list[index]))) } df %>% # First remove all duplicated rows - exactly the same for both Group, Family filter(!duplicated(.)) %>% # arrange in alphabetical order arrange(Group, family) %>% # create a Group_2 which is combination of all Group for each family group_by(family) %>% mutate(Group_2 = list(Group)) %>% ungroup() %>% # Create Group_3 which is the full combined Group for all intersect Group mutate(Group_3 = map(.[["Group_2"]], function(x) { look_up_group(one_group = x, lookup_list = .[["Group_2"]]) })) %>% # Combine all Group_3 into a Group_final mutate(Group_final = unlist(map(Group_3, function(x) { paste (x, collapse = ",")} ))) %>% # Finally put them all together. select(Group_final, family) %>% group_by(Group_final) %>% summarize(family = paste(family, collapse = ","), .groups = "drop")
然后下一步创建组_3并将它们合并到组_final中最终结果

# A tibble: 3 x 2 Group_final family * <chr> <chr> 1 A,B Canidae,Felidae,Canidae 2 C,D Elephantidae,Galinacae,Galinacae,Siuridae 3 E Apidae

#一个tible:3 x 2 最后一组 * 1 A，B犬科，猫科，犬科 2 C，D象皮动物科，象皮动物科，象皮动物科，象皮动物科，象皮动物科 3.蜜蜂科

[更新：为调试添加了tryCatch]
这感觉很熟悉-您最近是否发布（并删除）了类似的问题？；）请参阅和<代码>g=数据帧（d）中的图形<代码>d$m=组件（g）$membership[d$Group]；然后按“m”粘贴折叠非常感谢，它确实起作用了，因为实际上我收到了以下错误消息：“``问题与
mutate（）
input
Group_3
。x无法将类型“closure”强制为类型“character”的向量ℹ 输入
Group_3
为
map（…）
``你知道发生了什么事吗？@chippycentra-不确定没有实际数据-但很明显，你的数据中有一种情况导致函数
intersect出现错误
-我添加了一个tryCatch，只是为了打印出导致错误的函数-你可以更新函数代码并运行它，看看是什么导致了错误吗？
# remove duplicate & create variable Group_2 tmp <- df %>% filter(!duplicated(.)) %>% arrange(Group, family) %>% group_by(family) %>% mutate(Group_2 = list(Group)) %>% ungroup()

Group family Group_2 <fct> <fct> <list> 1 A Canidae <fct [2]> 2 A Felidae <fct [1]> 3 B Canidae <fct [2]> 4 C Elephantidae <fct [1]> 5 C Galinacae <fct [2]> 6 D Galinacae <fct [2]> 7 D Siuridae <fct [1]> 8 E Apidae <fct [1]>

> tmp$Group_2 [[1]] [1] A B Levels: A B C D E [[2]] [1] A Levels: A B C D E [[3]] [1] A B Levels: A B C D E [[4]] [1] C Levels: A B C D E [[5]] [1] C D Levels: A B C D E [[6]] [1] C D Levels: A B C D E [[7]] [1] D Levels: A B C D E [[8]] [1] E Levels: A B C D E

# Create Group_3 tmp <- tmp %>% mutate(Group_3 = map(.[["Group_2"]], function(x) { look_up_group(one_group = x, lookup_list = .[["Group_2"]]) })) %>% mutate(Group_final = unlist(map(Group_3, function(x) { paste (x, collapse = ",")} )))

# A tibble: 8 x 5 Group family Group_2 Group_3 Group_final <fct> <fct> <list> <list> <chr> 1 A Canidae <fct [2]> <fct [2]> A,B 2 A Felidae <fct [1]> <fct [2]> A,B 3 B Canidae <fct [2]> <fct [2]> A,B 4 C Elephantidae <fct [1]> <fct [2]> C,D 5 C Galinacae <fct [2]> <fct [2]> C,D 6 D Galinacae <fct [2]> <fct [2]> C,D 7 D Siuridae <fct [1]> <fct [2]> C,D 8 E Apidae <fct [1]> <fct [1]> E

tmp %>% select(Group_final, family) %>% group_by(Group_final) %>% summarize(family = paste(family, collapse = ","), .groups = "drop")

# A tibble: 3 x 2 Group_final family * <chr> <chr> 1 A,B Canidae,Felidae,Canidae 2 C,D Elephantidae,Galinacae,Galinacae,Siuridae 3 E Apidae