R 合并多个表时出现堆栈溢出错误
我有一个用例,我想将许多表拉入spark(因为它们是单独的Cassandra分区),并将它们合并在一起,这样我就可以使用R 合并多个表时出现堆栈溢出错误,r,sparklyr,R,Sparklyr,我有一个用例,我想将许多表拉入spark(因为它们是单独的Cassandra分区),并将它们合并在一起,这样我就可以使用dplyr和groupby处理生成的大表 我不能完全独立地处理所有的表,比如说,我的独立表是 (a1), (a2), (a3), (a4), (b1), (b2), (b3), (b4) 我需要向表提交一个查询 ((a1, a2, a3, a4), (b1, b2, b3, b4)) 因此,我至少需要做一些分组。从概念上讲,按照上面的“字母”将所有内容合并并分组要容易得多
dplyr
和groupby
处理生成的大表
我不能完全独立地处理所有的表,比如说,我的独立表是
(a1), (a2), (a3), (a4), (b1), (b2), (b3), (b4)
我需要向表提交一个查询
((a1, a2, a3, a4), (b1, b2, b3, b4))
因此,我至少需要做一些分组。从概念上讲,按照上面的“字母”将所有内容合并并分组要容易得多
我正在使用的产生堆栈溢出错误的代码的MWE如下所示:
# Removing this option results in an evaluation nested too deeply error
options( expressions = 5e5 )
library(sparklyr)
library(dplyr)
sc <- spark_connect(master = "local", spark_home = spark_home_dir())
n = 500
l = as.list(1:n)
for (i in 1:n) {
l[[i]] <- copy_to(
dest = sc,
iris,
name = paste0("iris", i),
overwrite = TRUE,
cache = TRUE)
}
dt = l %>% purrr::reduce(dplyr::union_all)
dt
#删除此选项会导致计算嵌套太深的错误
选项(表达式=5e5)
图书馆(年)
图书馆(dplyr)
sc这是通过SparkyR
错误报告解决的这是通过SparkyR
错误报告解决的