唯一行,考虑两列,在R中,无顺序
与我发现的问题不同,我想得到两列中唯一的一列,没有顺序 我有一个df:唯一行,考虑两列,在R中,无顺序,r,unique,plyr,dplyr,R,Unique,Plyr,Dplyr,与我发现的问题不同,我想得到两列中唯一的一列,没有顺序 我有一个df: df<-cbind(c("a","b","c","b"),c("b","d","e","a")) > df [,1] [,2] [1,] "a" "b" [2,] "b" "d" [3,] "c" "e" [4,] "b" "a" df [,1] [,2] [1,]a“b” [2,]b“d” [3,][c”“e” [4,]b“a” 在这种情况下,第1行和第4行是“重复的”,即
df<-cbind(c("a","b","c","b"),c("b","d","e","a"))
> df
[,1] [,2]
[1,] "a" "b"
[2,] "b" "d"
[3,] "c" "e"
[4,] "b" "a"
df
[,1] [,2]
[1,]a“b”
[2,]b“d”
[3,][c”“e”
[4,]b“a”
在这种情况下,第1行和第4行是“重复的”,即b-a与b-a相同
我知道如何找到第1列和第2列的唯一性,但在这种方法下,我会发现每一行都是唯一的。有很多方法可以做到这一点,这里有一种:
unique(t(apply(df, 1, sort)))
duplicated(t(apply(df, 1, sort)))
一个给出唯一的行,另一个给出掩码。如果所有元素都是字符串(见鬼,即使不是,你也可以强制它们),那么一个技巧就是将其创建为data.frame,并使用一些
dplyr
的技巧
library(dplyr)
df <- data.frame(v1 = c("a","b","c","b"), v2 = c("b","d","e","a"))
df$key <- apply(df, 1, function(s) paste0(sort(s), collapse=''))
head(df)
## v1 v2 key
## 1 a b ab
## 2 b d bd
## 3 c e ce
## 4 b a ab
如果只有两列,还可以使用
pmin
和pmax
,如下所示:
library(data.table)
unique(as.data.table(df)[, c("V1", "V2") := list(pmin(V1, V2),
pmax(V1, V2))], by = c("V1", "V2"))
# V1 V2
# 1: a b
# 2: b d
# 3: c e
使用“dplyr”的类似方法可能是:
library(dplyr)
data.frame(df, stringsAsFactors = FALSE) %>%
mutate(key = paste0(pmin(X1, X2), pmax(X1, X2), sep = "")) %>%
distinct(key)
# X1 X2 key
# 1 a b ab
# 2 b d bd
# 3 c e ce
您可以使用
igraph
创建无向图,然后转换回data.frame
unique(get.data.frame(graph.data.frame(df, directed=FALSE),"edges"))
这不是一个数据帧,而是一个矩阵;如果它是一个df,
unique(df)
就可以了。尝试dfI不这么认为,unique(df)
不会跨列检查c('a','b')
是否与c('b','a')有效相同(为什么要这样做?)。稍微多做一些工作…这不是很好地使用dplyr
。如果你想走这条路,我建议你看看distinct
。在一个小的(100k行)数据集上,这种方法目前在我的系统上需要>4秒,而基本R方法需要~1.3秒,data.table方法需要~0.03秒。使用pmin
和pmax
就是速度的来源。my数据的dplyr
变体。表答案以约0.05秒的速度运行。作为参考,我所指的变体如下:data.frame(df,stringsAsFactors=FALSE)%%>%mutate(key=paste0(pmin(X1,X2),pmax(X1,X2),sep=“”)%%>%distinct(key)
您的代码确实令人印象深刻。我仍在学习dplyr
的细节,这对您来说一定是显而易见的。这种方法返回行的第一次唯一出现(行1,2,3),但不会返回原始海报定义的重复行(行1,4)/唯一行(2,3)。为什么需要by=c(“V1”,“V2”)
?似乎省略它会得到相同的结果。
unique(get.data.frame(graph.data.frame(df, directed=FALSE),"edges"))