Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
SparkyR维度问题与spark\u read\u csv:NA结果_R_Apache Spark_Sparklyr - Fatal编程技术网

SparkyR维度问题与spark\u read\u csv:NA结果

SparkyR维度问题与spark\u read\u csv:NA结果,r,apache-spark,sparklyr,R,Apache Spark,Sparklyr,当我在Spark环境中用Spark_read_csv打开一个数据集(.csv)并询问相关tibble对象的尺寸时,不是行数而是NA。打开csv文件时缺少什么 以下是我得到的: data = spark_read_csv( spark_conn, name = "Advert", path = "/path/to/file", header = TRUE, delimiter = "," ) dim(data) [1]NA 5 通常,当您处理由数据库或类似数据库的系统支持的数据时,如

当我在Spark环境中用Spark_read_csv打开一个数据集(.csv)并询问相关tibble对象的尺寸时,不是行数而是NA。打开csv文件时缺少什么

以下是我得到的:

data = spark_read_csv(
  spark_conn, name = "Advert", path = "/path/to/file", 
  header = TRUE, delimiter = ","
)

dim(data)
[1]NA 5

通常,当您处理由数据库或类似数据库的系统支持的数据时,如果不对查询进行全部或部分评估,并为此操作付出代价,则无法确定行数

在Spark的情况下,它可能意味着从远程存储器获取数据、解析和聚合

正因为如此,
dplyr
/
dbplyr
中的
nrow
(与设计时考虑内存数据的一些其他操作相同)始终返回
NA

相反,您可以使用
dplyr::summary
n

df <- copy_to(sc, iris)

df %>% summarise(n=n())
#来源:spark[??x 1]
N
1   150
或者
sparklyr::sdf\u nrow

df %>% sparklyr::sdf_nrow()
[1]150

最后一个选项可能就是您所要寻找的。

通常,当您处理由数据库或类似数据库的系统支持的数据时,如果不完全或部分评估查询并为此操作付出代价,则无法确定行数

在Spark的情况下,它可能意味着从远程存储器获取数据、解析和聚合

正因为如此,
dplyr
/
dbplyr
中的
nrow
(与设计时考虑内存数据的一些其他操作相同)始终返回
NA

相反,您可以使用
dplyr::summary
n

df <- copy_to(sc, iris)

df %>% summarise(n=n())
#来源:spark[??x 1]
N
1   150
或者
sparklyr::sdf\u nrow

df %>% sparklyr::sdf_nrow()
[1]150
最后一个选择可能就是你想要的