R 是否有任何方法可以选择数据集中的某些行，这些行对于某些列多次重复显示？_R_Database

R 是否有任何方法可以选择数据集中的某些行，这些行对于某些列多次重复显示？

r database

R 是否有任何方法可以选择数据集中的某些行，这些行对于某些列多次重复显示？,r,database,R,Database,我有一个包含10000行和32列的数据集。我想知道我们是否可以为某些功能选择具有相同值的行这是一个使我的问题更清楚的例子 col1 col2 col3 col4 col5 1 2 3 4 5 3 4 3 6 8 2 2 5 4 5 4 2 7 4 5 5 4 `8 6 8` 2 3

我有一个包含10000行和32列的数据集。我想知道我们是否可以为某些功能选择具有相同值的行

这是一个使我的问题更清楚的例子

col1   col2   col3  col4  col5
1       2     3      4    5  
3       4     3      6    8
2       2     5      4    5
4       2     7      4    5
5       4    `8      6    8`
2       3     1      0    9
3       4     1      5    2

此数据集中有5列。假设我想选择一些在第2、4和5列中具有相同值的行

可以看出，第一行、第三行和第四行在col2、col4和col5中具有相同的值，第二行和第五行在这些列中也具有相同的值。因此，我将选择这些行，并创建新的数据集

 col1   col2   col3  col4  col5
  1       2     3      4    5  
  3       4     3      6    8
  2       2     5      4    5
  4       2     7      4    5
  5       4    `8      6    8`

我想@42提供的链接给了你一个解决这个问题的方法。您需要选择列并从两端应用

duplicated

，以选择行

cols <- c(2, 4, 5)
df[duplicated(df[cols]) | duplicated(df[cols], fromLast = TRUE), ]

#  col1 col2 col3 col4 col5
#1    1    2    3    4    5
#2    3    4    3    6    8
#3    2    2    5    4    5
#4    4    2    7    4    5
#5    5    4    8    6    8

你应该在发布前搜索。您应该看看SO接口提供的提名。我很惊讶，有一个副本提供给你的审查，因为这似乎是一个重复的其他我见过。如果你发现一个类似的问题，那么你应该链接到它，并解释为什么你在应用它时遇到困难。@42老实说，我找不到任何问题。你能让我看一下那个页面吗？你的反对票是不公平的，因为我没有发现类似的情况question@42我甚至不知道它被称为重复数据，正如我前面所说的，如果你发现一个类似但不完全适用的问题（并且它可能不是你第一次看到）然后你应该描述一下你在应用它方面做了哪些尝试，以及它是如何失败的。你不应该只看一个潜在的问题，而应该根据他们的头衔至少看两三个问题。

library(dplyr)
df %>%  group_by_at(cols) %>% filter(n() > 1)