SparkyR维度问题与spark\u read\u csv:NA结果_R_Apache Spark_Sparklyr

SparkyR维度问题与spark\u read\u csv:NA结果

r apache-spark

SparkyR维度问题与spark\u read\u csv:NA结果,r,apache-spark,sparklyr,R,Apache Spark,Sparklyr,当我在Spark环境中用Spark_read_csv打开一个数据集（.csv）并询问相关tibble对象的尺寸时，不是行数而是NA。打开csv文件时缺少什么以下是我得到的： data = spark_read_csv( spark_conn, name = "Advert", path = "/path/to/file", header = TRUE, delimiter = "," ) dim(data) [1]NA 5 通常，当您处理由数据库或类似数据库的系统支持的数据时，如

当我在Spark环境中用Spark_read_csv打开一个数据集（.csv）并询问相关tibble对象的尺寸时，不是行数而是NA。打开csv文件时缺少什么

以下是我得到的：

data = spark_read_csv(
  spark_conn, name = "Advert", path = "/path/to/file", 
  header = TRUE, delimiter = ","
)

dim(data)

[1]NA 5

通常，当您处理由数据库或类似数据库的系统支持的数据时，如果不对查询进行全部或部分评估，并为此操作付出代价，则无法确定行数

在Spark的情况下，它可能意味着从远程存储器获取数据、解析和聚合

正因为如此，

dplyr

dbplyr

中的

nrow

（与设计时考虑内存数据的一些其他操作相同）始终返回

NA

相反，您可以使用

dplyr:：summary

和

df <- copy_to(sc, iris)

df %>% summarise(n=n())

#来源：spark[？？x 1]
N
1   150

或者

sparklyr:：sdf\u nrow

：

df %>% sparklyr::sdf_nrow()

[1]150

最后一个选项可能就是您所要寻找的。

通常，当您处理由数据库或类似数据库的系统支持的数据时，如果不完全或部分评估查询并为此操作付出代价，则无法确定行数

在Spark的情况下，它可能意味着从远程存储器获取数据、解析和聚合

正因为如此，

dplyr

dbplyr

中的

nrow

（与设计时考虑内存数据的一些其他操作相同）始终返回

NA

相反，您可以使用

dplyr:：summary

和

df <- copy_to(sc, iris)

df %>% summarise(n=n())

#来源：spark[？？x 1]
N
1   150

或者

sparklyr:：sdf\u nrow

：

df %>% sparklyr::sdf_nrow()

[1]150

最后一个选择可能就是你想要的