SparkyR维度问题与spark\u read\u csv:NA结果
当我在Spark环境中用Spark_read_csv打开一个数据集(.csv)并询问相关tibble对象的尺寸时,不是行数而是NA。打开csv文件时缺少什么 以下是我得到的:SparkyR维度问题与spark\u read\u csv:NA结果,r,apache-spark,sparklyr,R,Apache Spark,Sparklyr,当我在Spark环境中用Spark_read_csv打开一个数据集(.csv)并询问相关tibble对象的尺寸时,不是行数而是NA。打开csv文件时缺少什么 以下是我得到的: data = spark_read_csv( spark_conn, name = "Advert", path = "/path/to/file", header = TRUE, delimiter = "," ) dim(data) [1]NA 5 通常,当您处理由数据库或类似数据库的系统支持的数据时,如
data = spark_read_csv(
spark_conn, name = "Advert", path = "/path/to/file",
header = TRUE, delimiter = ","
)
dim(data)
[1]NA 5
通常,当您处理由数据库或类似数据库的系统支持的数据时,如果不对查询进行全部或部分评估,并为此操作付出代价,则无法确定行数
在Spark的情况下,它可能意味着从远程存储器获取数据、解析和聚合
正因为如此,dplyr
/dbplyr
中的nrow
(与设计时考虑内存数据的一些其他操作相同)始终返回NA
相反,您可以使用dplyr::summary
和n
df <- copy_to(sc, iris)
df %>% summarise(n=n())
#来源:spark[??x 1]
N
1 150
或者sparklyr::sdf\u nrow
:
df %>% sparklyr::sdf_nrow()
[1]150
最后一个选项可能就是您所要寻找的。通常,当您处理由数据库或类似数据库的系统支持的数据时,如果不完全或部分评估查询并为此操作付出代价,则无法确定行数 在Spark的情况下,它可能意味着从远程存储器获取数据、解析和聚合 正因为如此,
dplyr
/dbplyr
中的nrow
(与设计时考虑内存数据的一些其他操作相同)始终返回NA
相反,您可以使用dplyr::summary
和n
df <- copy_to(sc, iris)
df %>% summarise(n=n())
#来源:spark[??x 1]
N
1 150
或者sparklyr::sdf\u nrow
:
df %>% sparklyr::sdf_nrow()
[1]150
最后一个选择可能就是你想要的