R 基于多个条件从2个数据帧中选择行_R_Dataframe

R 基于多个条件从2个数据帧中选择行

r dataframe

R 基于多个条件从2个数据帧中选择行,r,dataframe,R,Dataframe,我有两个数据帧 > abc V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 1 chr1 812640 813470 Rank_108039 5 . 2.51728 2.10797 0.59423|chr1 803450 812182 NR_027055 FAM41C 2 chr1 842313 8

我有两个数据帧

> abc
    V1     V2     V3          V4  V5 V6       V7       V8            V9    V10    V11       V12          V13
1 chr1 812640 813470 Rank_108039   5  .  2.51728  2.10797  0.59423|chr1 803450 812182 NR_027055       FAM41C
2 chr1 842313 842638 Rank_154173   3  .  2.34097  1.79807  0.35120|chr1 852197 855072 NR_026874 LOC100130417
3 chr1 843404 843769 Rank_154173   3  .  2.34097  1.79807  0.35120|chr1 852197 855072 NR_026874 LOC100130417
4 chr1 849172 849318 Rank_180753   2  .  2.19849  1.65655  0.25215|chr1 852197 855072 NR_026874 LOC100130417
5 chr1 761091 763246  Rank_11761 227  . 10.29544 24.83220 22.77738|chr1 763177 794826 NR_047525    LINC01128

> cde
    V1     V2     V3         V4  V5 V6       V7       V8            V9    V10    V11       V12          V13
1 chr1  28565  28699 Rank_31267   1  .  2.17937  1.99334  0.18208|chr1  14361  29370 NR_024540       WASH7P
2 chr1 712911 714068 Rank_12239 208  .  8.78112 22.93857 20.88265|chr1 700244 714068 NR_033908 LOC100288069
3 chr1 761091 762902 Rank_11761 227  . 10.29544 24.83220 22.77738|chr1 761585 762902 NR_024321    LINC00115
4 chr1 761091 763246 Rank_11761 227  . 10.29544 24.83220 22.77738|chr1 763177 794826 NR_047525    LINC01128

我想创建一个新的数据框，其中包含所有那些行，这些行的

abc$V12==cde$V12

和

abc$V13==cde$V13

我尝试了许多可能的选项（子集、dplyr的过滤器、sqldf的选择），但我无法做到这一点

根据这些条件，我的最终data.frame将只包含abc的第5行，因为它满足所需条件。因此，输出将是：

> final.df
5 chr1 761091 763246  Rank_11761 227  . 10.29544 24.83220 22.77738|chr1 763177 794826 NR_047525    LINC01128

以下是data.frames的dput：

> dput(abc)
structure(list(V1 = structure(c(1L, 1L, 1L, 1L, 1L), .Label = "chr1", class = "factor"), 
    V2 = c(812640L, 842313L, 843404L, 849172L, 761091L), V3 = c(813470L, 
    842638L, 843769L, 849318L, 763246L), V4 = structure(c(1L, 
    3L, 3L, 4L, 2L), .Label = c("Rank_108039", "Rank_11761", 
    "Rank_154173", "Rank_180753"), class = "factor"), V5 = c(5L, 
    3L, 3L, 2L, 227L), V6 = structure(c(1L, 1L, 1L, 1L, 1L), .Label = ".", class = "factor"), 
    V7 = c(2.51728, 2.34097, 2.34097, 2.19849, 10.29544), V8 = c(2.10797, 
    1.79807, 1.79807, 1.65655, 24.8322), V9 = structure(c(3L, 
    2L, 2L, 1L, 4L), .Label = c("0.25215|chr1", "0.35120|chr1", 
    "0.59423|chr1", "22.77738|chr1"), class = "factor"), V10 = c(803450L, 
    852197L, 852197L, 852197L, 763177L), V11 = c(812182L, 855072L, 
    855072L, 855072L, 794826L), V12 = structure(c(2L, 1L, 1L, 
    1L, 3L), .Label = c("NR_026874", "NR_027055", "NR_047525"
    ), class = "factor"), V13 = structure(c(1L, 3L, 3L, 3L, 2L
    ), .Label = c("FAM41C", "LINC01128", "LOC100130417"), class = "factor")), .Names = c("V1", 
"V2", "V3", "V4", "V5", "V6", "V7", "V8", "V9", "V10", "V11", 
"V12", "V13"), class = "data.frame", row.names = c(NA, -5L))
> dput(cde)
structure(list(V1 = structure(c(1L, 1L, 1L, 1L), .Label = "chr1", class = "factor"), 
    V2 = c(28565L, 712911L, 761091L, 761091L), V3 = c(28699L, 
    714068L, 762902L, 763246L), V4 = structure(c(3L, 2L, 1L, 
    1L), .Label = c("Rank_11761", "Rank_12239", "Rank_31267"), class = "factor"), 
    V5 = c(1L, 208L, 227L, 227L), V6 = structure(c(1L, 1L, 1L, 
    1L), .Label = ".", class = "factor"), V7 = c(2.17937, 8.78112, 
    10.29544, 10.29544), V8 = c(1.99334, 22.93857, 24.8322, 24.8322
    ), V9 = structure(c(1L, 2L, 3L, 3L), .Label = c("0.18208|chr1", 
    "20.88265|chr1", "22.77738|chr1"), class = "factor"), V10 = c(14361L, 
    700244L, 761585L, 763177L), V11 = c(29370L, 714068L, 762902L, 
    794826L), V12 = structure(c(2L, 3L, 1L, 4L), .Label = c("NR_024321", 
    "NR_024540", "NR_033908", "NR_047525"), class = "factor"), 
    V13 = structure(c(4L, 3L, 1L, 2L), .Label = c("LINC00115", 
    "LINC01128", "LOC100288069", "WASH7P"), class = "factor")), .Names = c("V1", 
"V2", "V3", "V4", "V5", "V6", "V7", "V8", "V9", "V10", "V11", 
"V12", "V13"), class = "data.frame", row.names = c(NA, -4L))

我们可以使用

merge

merge(abc[c("V12", "V13")], cde, by = c("V12", "V13"))
#        V12       V13   V1     V2     V3         V4  V5 V6       V7      V8            V9    V10    V11
#1 NR_047525 LINC01128 chr1 761091 763246 Rank_11761 227  . 10.29544 24.8322 22.77738|chr1 763177 794826

如果我们需要将“V9”列拆分为

cbind(abc, read.table(text = as.character(abc$V9), sep="|", header= FALSE))

我们可以使用

merge

merge(abc[c("V12", "V13")], cde, by = c("V12", "V13"))
#        V12       V13   V1     V2     V3         V4  V5 V6       V7      V8            V9    V10    V11
#1 NR_047525 LINC01128 chr1 761091 763246 Rank_11761 227  . 10.29544 24.8322 22.77738|chr1 763177 794826

如果我们需要将“V9”列拆分为

cbind(abc, read.table(text = as.character(abc$V9), sep="|", header= FALSE))

使用

plyr

包的

match_df

的另一个选项

library(plyr)
match_df(abc,cde,on = c("V12","V13"))

使用

plyr

包的

match_df

的另一个选项

library(plyr)
match_df(abc,cde,on = c("V12","V13"))

您是否尝试过

merge

您是否尝试过

merge

您可以指导我如何检索那些不符合要求条件的行（例如，abc数据帧中的前4行）？@Newbie:使用此

anti_join（abc，final.df）

从

dplyr

包中检索这些行。您可以指导我如何检索这些行吗（例如，abc数据帧的前4行）不满足所需条件）？@新手：使用

dplyr

包中的

反联接（abc，final.df）

。你能建议我如何在

上拆分列

V9

，以便得到两个新列，一个有索引1（0.59423），另一个有索引2（chr1）（给出的例子是abc的第1行）@Newbie您可以使用strsplit（df1$V9，[|]）它只是拆分，这是我想要的：

ab@Newbie您也可以使用read.table（text=df1$V9，sep=“|”，header=FALSE）
但无论如何，你接受了另一种解决方案，只是问我，然后当你得到一些答案时，你是在试图取笑答案这是一个误解，我不是在取笑答案。你建议的答案只是拆分了该专栏，而当我自己寻找时，我发现了我真正想要的，所以分享了这些信息，如果它对其他人有帮助的话。我看不出它有什么有趣的地方。你能建议我如何在
上拆分V9
列，这样我就可以得到两个新列，一个是索引1（0.59423），另一个是索引2（chr1）（给出的例子是abc的row1）@Newbie你可以使用strsplit（df1$V9，[|]）
它只是拆分，这是我想要的：ab@Newbie您也可以使用read.table（text=df1$V9，sep=“|”，header=FALSE）
但无论如何，你接受了另一种解决方案，只是问我，然后当你得到一些答案时，你是在试图取笑答案这是一个误解，我不是在取笑答案。你建议的答案只是拆分了该专栏，而当我自己寻找时，我发现了我真正想要的，所以分享了这些信息，以防对其他人有所帮助。我看不出其中有什么有趣的地方。