在R中读取带有Sparklyr的.csv文件

在R中读取带有Sparklyr的.csv文件,r,csv,apache-spark,sparklyr,R,Csv,Apache Spark,Sparklyr,我在C:\Users\USER\u NAME\Documents中有两个.csv文件,大小超过2GB。我想使用ApacheSpark在R中读取它们的数据。我正在使用Microsoft R Open 3.3.1和Spark 2.0.1 我一直在使用sparkyr包中定义的spark\u read\u csv(…)函数读取.csv文件。它请求的文件路径以file://开头。我想知道我的案例的正确文件路径,从file://开始,以../Documents目录中的文件名结束。我遇到了类似的问题。在我的例

我在
C:\Users\USER\u NAME\Documents
中有两个
.csv
文件,大小超过2GB。我想使用ApacheSpark在R中读取它们的数据。我正在使用Microsoft R Open 3.3.1和Spark 2.0.1


我一直在使用
sparkyr
包中定义的
spark\u read\u csv(…)
函数读取
.csv
文件。它请求的文件路径以
file://
开头。我想知道我的案例的正确文件路径,从
file://
开始,以
../Documents
目录中的文件名结束。

我遇到了类似的问题。在我的例子中,在使用spark_read_csv调用.csv文件之前,有必要将.csv文件放入hdfs文件系统中

我想你可能也有类似的问题

如果群集也使用hdfs运行,则需要使用:

hdfs dfs-put

最好的,
菲利克斯,不是吗file:///C:/Users/USER_NAME/Documents/FILENAME.csv“?如果目录在hdfs中,您可以创建一个配置单元映射(创建外部表…),并使用
spark\u read\u csv