R 是否有任何方法可以选择数据集中的某些行,这些行对于某些列多次重复显示?

R 是否有任何方法可以选择数据集中的某些行,这些行对于某些列多次重复显示?,r,database,R,Database,我有一个包含10000行和32列的数据集。我想知道我们是否可以为某些功能选择具有相同值的行 这是一个使我的问题更清楚的例子 col1 col2 col3 col4 col5 1 2 3 4 5 3 4 3 6 8 2 2 5 4 5 4 2 7 4 5 5 4 `8 6 8` 2 3

我有一个包含10000行和32列的数据集。我想知道我们是否可以为某些功能选择具有相同值的行

这是一个使我的问题更清楚的例子

col1   col2   col3  col4  col5
1       2     3      4    5  
3       4     3      6    8
2       2     5      4    5
4       2     7      4    5
5       4    `8      6    8`
2       3     1      0    9
3       4     1      5    2
此数据集中有5列。假设我想选择一些在第2、4和5列中具有相同值的行

可以看出,第一行、第三行和第四行在col2、col4和col5中具有相同的值,第二行和第五行在这些列中也具有相同的值。因此,我将选择这些行,并创建新的数据集

 col1   col2   col3  col4  col5
  1       2     3      4    5  
  3       4     3      6    8
  2       2     5      4    5
  4       2     7      4    5
  5       4    `8      6    8`

我想@42提供的链接给了你一个解决这个问题的方法。您需要选择列并从两端应用
duplicated
,以选择行

cols <- c(2, 4, 5)
df[duplicated(df[cols]) | duplicated(df[cols], fromLast = TRUE), ]

#  col1 col2 col3 col4 col5
#1    1    2    3    4    5
#2    3    4    3    6    8
#3    2    2    5    4    5
#4    4    2    7    4    5
#5    5    4    8    6    8

你应该在发布前搜索。您应该看看SO接口提供的提名。我很惊讶,有一个副本提供给你的审查,因为这似乎是一个重复的其他我见过。如果你发现一个类似的问题,那么你应该链接到它,并解释为什么你在应用它时遇到困难。@42老实说,我找不到任何问题。你能让我看一下那个页面吗?你的反对票是不公平的,因为我没有发现类似的情况question@42我甚至不知道它被称为重复数据,正如我前面所说的,如果你发现一个类似但不完全适用的问题(并且它可能不是你第一次看到)然后你应该描述一下你在应用它方面做了哪些尝试,以及它是如何失败的。你不应该只看一个潜在的问题,而应该根据他们的头衔至少看两三个问题。
library(dplyr)
df %>%  group_by_at(cols) %>% filter(n() > 1)