Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何将数据帧作为流上传而不保存在光盘上?_Scala_Apache Spark_Spark Csv - Fatal编程技术网

Scala 如何将数据帧作为流上传而不保存在光盘上?

Scala 如何将数据帧作为流上传而不保存在光盘上?,scala,apache-spark,spark-csv,Scala,Apache Spark,Spark Csv,我想上传一个数据帧到服务器作为csv文件与Gzip编码,而不保存在光盘上 使用spark csvlib,使用Gzip编码构建一些csv文件很容易: df.write .format("com.databricks.spark.csv") .option("header", "true") .option("codec", "org.apache.hadoop.io.compress.GzipCodec") .save(s"result.csv.gz") 但是我不

我想上传一个数据帧到服务器作为csv文件与Gzip编码,而不保存在光盘上

使用
spark csv
lib,使用Gzip编码构建一些csv文件很容易:

df.write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
    .save(s"result.csv.gz")

但是我不知道如何获取表示我的数据帧的
数组[Byte]
,我可以通过HTTP上传它您可以作为远程hdfs服务器写入远程服务器,您需要在远程服务器上安装hdfs,但之后您应该可以执行以下操作

df.write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
    .save("hdfs://your_remote_server_hostname_or_ip/result.csv.gz")

谢谢你的回答。问题是我需要将文件上传到谷歌硬盘之类的存储设备。我无法在此处安装hdfs)