R 是否有任何方法可以选择数据集中的某些行,这些行对于某些列多次重复显示?
我有一个包含10000行和32列的数据集。我想知道我们是否可以为某些功能选择具有相同值的行 这是一个使我的问题更清楚的例子R 是否有任何方法可以选择数据集中的某些行,这些行对于某些列多次重复显示?,r,database,R,Database,我有一个包含10000行和32列的数据集。我想知道我们是否可以为某些功能选择具有相同值的行 这是一个使我的问题更清楚的例子 col1 col2 col3 col4 col5 1 2 3 4 5 3 4 3 6 8 2 2 5 4 5 4 2 7 4 5 5 4 `8 6 8` 2 3
col1 col2 col3 col4 col5
1 2 3 4 5
3 4 3 6 8
2 2 5 4 5
4 2 7 4 5
5 4 `8 6 8`
2 3 1 0 9
3 4 1 5 2
此数据集中有5列。假设我想选择一些在第2、4和5列中具有相同值的行
可以看出,第一行、第三行和第四行在col2、col4和col5中具有相同的值,第二行和第五行在这些列中也具有相同的值。因此,我将选择这些行,并创建新的数据集
col1 col2 col3 col4 col5
1 2 3 4 5
3 4 3 6 8
2 2 5 4 5
4 2 7 4 5
5 4 `8 6 8`
我想@42提供的链接给了你一个解决这个问题的方法。您需要选择列并从两端应用
duplicated
,以选择行
cols <- c(2, 4, 5)
df[duplicated(df[cols]) | duplicated(df[cols], fromLast = TRUE), ]
# col1 col2 col3 col4 col5
#1 1 2 3 4 5
#2 3 4 3 6 8
#3 2 2 5 4 5
#4 4 2 7 4 5
#5 5 4 8 6 8
你应该在发布前搜索。您应该看看SO接口提供的提名。我很惊讶,有一个副本提供给你的审查,因为这似乎是一个重复的其他我见过。如果你发现一个类似的问题,那么你应该链接到它,并解释为什么你在应用它时遇到困难。@42老实说,我找不到任何问题。你能让我看一下那个页面吗?你的反对票是不公平的,因为我没有发现类似的情况question@42我甚至不知道它被称为重复数据,正如我前面所说的,如果你发现一个类似但不完全适用的问题(并且它可能不是你第一次看到)然后你应该描述一下你在应用它方面做了哪些尝试,以及它是如何失败的。你不应该只看一个潜在的问题,而应该根据他们的头衔至少看两三个问题。
library(dplyr)
df %>% group_by_at(cols) %>% filter(n() > 1)