R 在不使用apply的情况下获取与一系列向量重合的矩阵行
我的问题有点像 假设我有一个矩阵和4个向量(可以考虑这另一个矩阵,因为向量的顺序很重要),并且我想得到与每个向量重合的行号。我希望解决方案避免重复向量,并且尽可能有效,因为问题是大规模的 例如R 在不使用apply的情况下获取与一系列向量重合的矩阵行,r,matrix,vector,vectorization,apply,R,Matrix,Vector,Vectorization,Apply,我的问题有点像 假设我有一个矩阵和4个向量(可以考虑这另一个矩阵,因为向量的顺序很重要),并且我想得到与每个向量重合的行号。我希望解决方案避免重复向量,并且尽可能有效,因为问题是大规模的 例如 set.seed(1) M = matrix(rpois(50,5),5,10) v1 = c(3, 2, 7, 7, 4, 4, 7, 4, 5, 6) v2= c(8, 6, 4, 4, 3, 8, 3, 6, 5, 6) v3= c(4, 8, 3,
set.seed(1)
M = matrix(rpois(50,5),5,10)
v1 = c(3, 2, 7, 7, 4, 4, 7, 4, 5, 6)
v2= c(8, 6, 4, 4, 3, 8, 3, 6, 5, 6)
v3= c(4, 8, 3, 5, 9, 4, 5, 6, 7 ,7)
v4= c(4, 9, 3, 6, 3, 1, 5, 7,6, 1)
Vmat = cbind(v1,v2,v3,v4)
M
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 4 8 3 5 9 4 5 6 7 7
[2,] 4 9 3 6 3 1 5 7 6 1
[3,] 5 6 6 11 6 4 5 2 7 5
[4,] 8 6 4 4 3 8 3 6 5 6
[5,] 3 2 7 7 4 4 7 4 5 6
Vmat
v1 v2 v3 v4
[1,] 3 8 4 4
[2,] 2 6 8 9
[3,] 7 4 3 3
[4,] 7 4 5 6
[5,] 4 3 9 3
[6,] 4 8 4 1
[7,] 7 3 5 5
[8,] 4 6 6 7
[9,] 5 5 7 6
[10,] 6 6 7 1
输出应该是
5 4 1 2
如果我们将它们切换到
data.frame
s,那么我们就可以使用merge
来实现这个技巧。此外,我们旋转Vmat
,以便于匹配
haystack <- as.data.frame(M)
haystack$haystack_id <- rownames(haystack)
needle <- as.data.frame(t(Vmat))
needle$needle_id <- rownames(needle)
lookups <- merge(needle, haystack)
lookups <- lookups[order(lookups$needle_id), ]
haystack我认为将每个向量压缩为一个值是一种方法,如下@bunk:
m = do.call(function(...) paste(...,sep="_"), split(M, col(M)))
v = sapply(list(v1,v2,v3,v4), paste0, collapse="_")
match(v,m)
# [1] 5 4 1 2
建造m
的更自然的方法是使用apply
,但这是多余的。如果将M
存储为data.frame,另一个选项是:
m = do.call(function(...) paste(...,sep="_"), as.data.frame(M))
与@user295691的答案类似,我们进行了合并,但现在在merge.data.table
中使用了which=TRUE
选项:
set.seed(1)
matdata <- create_data(1e6,20,1e5) # using @user295691's example data
library(data.table)
M = as.data.table(matdata$M)
V = as.data.table(matdata$V)
r <- M[V, on=names(V), which=TRUE]
基准
OP的示例数据(在删除的答案中):
要测试的功能:
match_strings <- function(){
m = do.call(function(...) paste(...,sep="_"), M)
v = do.call(function(...) paste(...,sep="_"), V)
match(v,m)
}
merge_df <- function(){ # from @user295691's answer
M$mid = seq(nrow(M))
V$vid = seq(nrow(V))
with(merge(M,V), mid[order(vid)])
}
merge_dt <- function(){
M2[V2, on=names(V2), which=TRUE]
}
“避免重复向量”是什么意思?我认为apply
是正确的方法,即使你不喜欢它<代码>m=应用(m,1,0,折叠=“”);v=应用(Vmat,2,0,塌陷=“”);匹配(v,m)
Frank,避开rep(v1,)进行一些比较。如果你看到另一个问题,一些解决方案会重复向量,但最后一个解决方案不会,这会更有效。应用程序将不起作用,这样循环太慢了。这会使所有[1]都重新启动NA@bunk在我的回答中借用了这个。希望你不介意。无需在答案正文中写下你的编辑笔记。它们可以包含在编辑摘要(编辑时可见的小文本字段)中。最好只把你的答案写成最好的版本,而不记录它的历史。@Frank:显然是意见问题;我喜欢编辑笔记,因为在讨论问题时,我不喜欢事情发生变化,使我对答案的分析毫无预警地无效。一旦答案被接受,我可能有理由删除EDIT
注释。这很公平。可能需要添加一个相同的(ret$hid,matchstr)
来确认我们正在做同样的事情(可能是正确的)。相当标准的基准测试。这个速度和Frank的答案相比,对吗?理论上有什么比使用match更快的方法吗?我不太了解匹配算法的计算复杂度。我想知道OP是如何得到相反的结果的。他们的示例数据是否有本质上的不同?这比上面的合并解决方案快得多。我将发布一个答案,比较这两个答案。这是一个很好的答案,谢谢。尝试获得1.9.5:(@robertevansanders,但是很有收获!在1.9.4的例子中,你可以使用system.time({M2[,id:=.I];setkeyv(M2,names(V2));M2[V2]$id->r})遵循merge#df
风格。38秒对我来说是相同的(r,r#strings)#真的
我有让生活地狱般的窗口哈哈:(.M2[,id:=.I]
在M2中创建一个行id列(与M$mid=seq(nrow(M))
内部merge_df
)。setkeyv(M2,names(V2))
通过对列V1:V20
进行排序,准备M2
与V2
合并,这在数据表1.9.4中是必需的。M2[V2]
进行合并-结果的每一行对应于V2
的一行,因此我们可以只取$id
,并对其进行适当排序(与merge_df
)不同,@robertevansanders对此表示抱歉。1.9.6现在在CRAN上。也许Jan关于“drat”的建议是正确的。。。
V[1,]
# V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20
# 1: 7 5 3 2 5 6 3 3 5 5 3 2 4 9 4 4 3 6 4 3
M[r[1],]
# V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20
# 1: 7 5 3 2 5 6 3 3 5 5 3 2 4 9 4 4 3 6 4 3
set.seed(1)
NM = 1e6
NV = 1e5
Ncols = 20
MM = matrix(rpois(NM*Ncols,Ncols),NM,Ncols)
rows=sample(NM,NV,replace = FALSE)
Vmat=t(MM[rows,])
# converted to data.frames, because why not?
M = as.data.frame(MM)
V = as.data.frame(t(Vmat))
# converted to data.tables
M2 = setDT(copy(M))
V2 = setDT(copy(V))
match_strings <- function(){
m = do.call(function(...) paste(...,sep="_"), M)
v = do.call(function(...) paste(...,sep="_"), V)
match(v,m)
}
merge_df <- function(){ # from @user295691's answer
M$mid = seq(nrow(M))
V$vid = seq(nrow(V))
with(merge(M,V), mid[order(vid)])
}
merge_dt <- function(){
M2[V2, on=names(V2), which=TRUE]
}
system.time({r_strings = match_strings()})
# user system elapsed
# 10.40 0.06 10.49
system.time({r_merge_df = merge_df()})
# user system elapsed
# 14.71 0.10 14.84
system.time({r_merge_dt = merge_dt()})
# user system elapsed
# 0.39 0.00 0.40
identical(r_strings,r_merge_df) # TRUE
identical(r_strings,r_merge_dt) # TRUE