是否可以在dplyr中进行完全联接并保留联接中使用的所有列?
我有两个表,我想使用dplyr进行完全连接,但我不想让它删除任何列。根据文档和我自己的经验,它只保留左侧的join列。当您有一行的右侧有记录时,这是一个问题,因为联接值已消失 例如,假设我有两个表a和b是否可以在dplyr中进行完全联接并保留联接中使用的所有列?,r,dplyr,sparklyr,R,Dplyr,Sparklyr,我有两个表,我想使用dplyr进行完全连接,但我不想让它删除任何列。根据文档和我自己的经验,它只保留左侧的join列。当您有一行的右侧有记录时,这是一个问题,因为联接值已消失 例如,假设我有两个表a和b customerId | revenue customerId | state -----------|--------- -----------|------- 1 | 2000
customerId | revenue customerId | state
-----------|--------- -----------|-------
1 | 2000 1 | CA
2 | 3000 3 | GA
4 | 4000 4 | NY
像full_joina,b,by=customerId这样的操作将产生
customerId | revenue | state
-----------|---------|-------
1 | 2000 | CA
2 | 3000 | <NA>
<NA> | <NA> | GA
4 | 4000 | NY
因此,无法判断第三排是哪个客户。理想的输出是
customerId.a | customerId.b | revenue | state
-------------|--------------|---------|-------
1 | 1 | 2000 | CA
2 | <NA> | 3000 | <NA>
<NA> | 3 | <NA> | GA
4 | 4 | 4000 | NY
请注意,这只是一个玩具示例。我实际上在使用SparkyR,所以这一切都在Spark中运行。因此,合并在这里对我不起作用。有没有一种方法可以实现我在dplyr中寻找的目标
编辑:
正如有人指出的那样,这实际上是在dplyr本身的本地工作。然而,我确实看到了使用sparklyr的问题,它使用dplyr。下面是代码以查看:
library(sparklyr)
sc <- spark_connect("local[4]")
d1 <- data_frame(customerId = c("1","2","4"), revenue=c(2000,3000,4000))
d2 <- data_frame(customerId = c("1","3","4"), state=c("CA", "GA", "NY"))
d1_tbl <- copy_to(sc, d1)
d2_tbl <- copy_to(sc, d2)
full_join(d1_tbl, d2_tbl, by=c("customerId"))
我无法重现你的问题。所有ID都应包含在完全联接中
library(data_frame)
d1 <- data_frame(
customerId = c(1, 2, 4),
revenue = c(2000, 3000, 4000)
)
d2 <- data_frame(
customerId = c(1, 3, 4),
state = c("CA", "GA", "NY")
)
full_join(d1, d2, by = "customerId")
## # A tibble: 4 × 3
## customerId revenue state
## <dbl> <dbl> <chr>
## 1 1 2000 CA
## 2 2 3000 <NA>
## 3 4 4000 NY
## 4 3 NA GA
您可以尝试运行自定义SQL查询以获得所需的内容,尽管这有点混乱
library(DBI)
qry <- "SELECT
d1.customerID AS customerID1,
d2.customerID AS customerID2,
d1.revenue,
d2.state
FROM d1
FULL JOIN d2
ON d1.customerId = d2.customerId"
dbGetQuery(sc, qry)
## customerID1 customerID2 revenue state
## 1 1 1 2000 CA
## 2 2 <NA> 3000 <NA>
## 3 <NA> 3 NaN GA
## 4 4 4 4000 NY
在联接之前,可以为两个数据帧创建单独的相同customerId: 这个问题已经解决了
> full_join(d1_tbl, d2_tbl, by="customerId")
# Source: lazy query [?? x 3]
# Database: spark_connection
customerId revenue state
<chr> <dbl> <chr>
1 1 2000 CA
2 3 NaN GA
3 2 3000 <NA>
4 4 4000 NY
谢谢你指出这一点。我应该先自己试试。非常有趣。这绝对不是我在使用Sparkyr时看到的行为。我将创建一个代码示例来演示和更新我的问题。我喜欢这个想法,可能会尝试一下作为解决方法。然而,正如Richie指出的那样,这确实在dplyr本身内部起作用。虽然使用SparkyR,但行为是不同的。这应该是公认的答案-问题是关于保留两个表中的所有列,如果要检查哪些行没有联接,则需要保留这些列,而不仅仅是一个包含联接键所有值的列。这个答案是目前为止最简单的解决方法。在这里提出了一个问题:。谢谢
full_join(
mutate(a, customerId.a = customerId),
mutate(b, customerId.b = customerId),
by="customerId"
) %>% select(-customerId)
# revenue customerId.a state customerId.b
#1 2000 1 CA 1
#2 3000 2 <NA> NA
#3 4000 4 NY 4
#4 NA NA GA 3
> full_join(d1_tbl, d2_tbl, by="customerId")
# Source: lazy query [?? x 3]
# Database: spark_connection
customerId revenue state
<chr> <dbl> <chr>
1 1 2000 CA
2 3 NaN GA
3 2 3000 <NA>
4 4 4000 NY