在R中读取带有Sparklyr的.csv文件_R_Csv_Apache Spark_Sparklyr

在R中读取带有Sparklyr的.csv文件

r csv apache-spark

在R中读取带有Sparklyr的.csv文件,r,csv,apache-spark,sparklyr,R,Csv,Apache Spark,Sparklyr,我在C:\Users\USER\u NAME\Documents中有两个.csv文件，大小超过2GB。我想使用ApacheSpark在R中读取它们的数据。我正在使用Microsoft R Open 3.3.1和Spark 2.0.1 我一直在使用sparkyr包中定义的spark\u read\u csv（…）函数读取.csv文件。它请求的文件路径以file://开头。我想知道我的案例的正确文件路径，从file://开始，以../Documents目录中的文件名结束。我遇到了类似的问题。在我的例

我在

C:\Users\USER\u NAME\Documents

中有两个

.csv

文件，大小超过2GB。我想使用ApacheSpark在R中读取它们的数据。我正在使用Microsoft R Open 3.3.1和Spark 2.0.1

我一直在使用

sparkyr

包中定义的

spark\u read\u csv（…）

函数读取

.csv

文件。它请求的文件路径以

file://

开头。我想知道我的案例的正确文件路径，从

file://

开始，以

../Documents

目录中的文件名结束。

我遇到了类似的问题。在我的例子中，在使用spark_read_csv调用.csv文件之前，有必要将.csv文件放入hdfs文件系统中

我想你可能也有类似的问题

如果群集也使用hdfs运行，则需要使用：

hdfs dfs-put

最好的，

菲利克斯，不是吗file:///C:/Users/USER_NAME/Documents/FILENAME.csv“？如果目录在hdfs中，您可以创建一个配置单元映射（创建外部表…），并使用

spark\u read\u csv