R 复制到失败
我正在使用Sparkyr库从R到HDFS读写数据。读取数据按预期工作,但写入会产生问题 为了能够使用spark_write_csv函数,我需要将R data.frames转换为spark对象。 我使用Sparkyr sdf_copy_来实现这一点(也尝试了copy_to)。然而,我总是会出错 代码:R 复制到失败,r,hadoop,apache-spark,sparklyr,R,Hadoop,Apache Spark,Sparklyr,我正在使用Sparkyr库从R到HDFS读写数据。读取数据按预期工作,但写入会产生问题 为了能够使用spark_write_csv函数,我需要将R data.frames转换为spark对象。 我使用Sparkyr sdf_copy_来实现这一点(也尝试了copy_to)。然而,我总是会出错 代码: table1我也有同样的问题。您需要将.csv放入hdfs中。 您可以通过shell执行此操作 您可以通过ssh登录到集群。然后使用“put”将.csv放入hdfs 连接到群集后在shell中写入:
table1我也有同样的问题。您需要将.csv放入hdfs中。
您可以通过shell执行此操作
您可以通过ssh登录到集群。然后使用“put”将.csv放入hdfs
连接到群集后在shell中写入:
hdfs dfs的本地文件路径/file.csv“放入”您选择的hdfs中文件夹的路径
然后,您将使用hdfs路径加载文件。不知道它是否与问题有关(可能与此无关),但覆盖时不应使用小写字母?感谢您的回复。刚刚尝试用小写字母覆盖,但出现了相同的错误。您是否可以尝试使用Spark数据帧的名称(“DataFrame”
此处?)而不是表1
(R包装器的名称)?
table1 <- sdf_copy_to(sc,dataframe,OVERWRITE=TRUE)
spark_write_csv(table1, "path")