Scala 如何将数据帧作为流上传而不保存在光盘上?
我想上传一个数据帧到服务器作为csv文件与Gzip编码,而不保存在光盘上 使用Scala 如何将数据帧作为流上传而不保存在光盘上?,scala,apache-spark,spark-csv,Scala,Apache Spark,Spark Csv,我想上传一个数据帧到服务器作为csv文件与Gzip编码,而不保存在光盘上 使用spark csvlib,使用Gzip编码构建一些csv文件很容易: df.write .format("com.databricks.spark.csv") .option("header", "true") .option("codec", "org.apache.hadoop.io.compress.GzipCodec") .save(s"result.csv.gz") 但是我不
spark csv
lib,使用Gzip编码构建一些csv文件很容易:
df.write
.format("com.databricks.spark.csv")
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save(s"result.csv.gz")
但是我不知道如何获取表示我的数据帧的
数组[Byte]
,我可以通过HTTP上传它您可以作为远程hdfs服务器写入远程服务器,您需要在远程服务器上安装hdfs,但之后您应该可以执行以下操作
df.write
.format("com.databricks.spark.csv")
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.save("hdfs://your_remote_server_hostname_or_ip/result.csv.gz")
谢谢你的回答。问题是我需要将文件上传到谷歌硬盘之类的存储设备。我无法在此处安装hdfs)