Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 将数据保存到HDFS的格式是什么?_Hadoop_Apache Spark_Hdfs_Apache Spark Sql - Fatal编程技术网

Hadoop 将数据保存到HDFS的格式是什么?

Hadoop 将数据保存到HDFS的格式是什么?,hadoop,apache-spark,hdfs,apache-spark-sql,Hadoop,Apache Spark,Hdfs,Apache Spark Sql,创建数据帧后,我可以将其保存为avro、csv或拼花格式 在dataframe或rdd中是否有其他格式可用于在Hadoop HDFS中保存数据?来源: Hadoop分布式文件系统(HDFS)™):提供对应用程序数据的高吞吐量访问的分布式文件系统 有了它,您可以使用HDFS以任何格式存储虚拟文件,包括avro、CSV、parquet等 在Spark中,使用方法指定数据帧的格式,而使用方法指定存储中的位置 格式(源:字符串):DataFrameWriter[T]指定底层输出数据源。内置选项包括“拼

创建数据帧后,我可以将其保存为avro、csv或拼花格式

在dataframe或rdd中是否有其他格式可用于在Hadoop HDFS中保存数据?

来源:

Hadoop分布式文件系统(HDFS)™):提供对应用程序数据的高吞吐量访问的分布式文件系统

有了它,您可以使用HDFS以任何格式存储虚拟文件,包括avro、CSV、parquet等


在Spark中,使用方法指定数据帧的格式,而使用方法指定存储中的位置

格式(源:字符串):DataFrameWriter[T]指定底层输出数据源。内置选项包括“拼花”、“json”等

保存(路径:字符串):单位将数据帧的内容保存在指定路径

您还可以使用快捷方式,使用特定于格式的方法(如
json(path:String)
parquet(path:String)
或类似方法)定义存储上数据帧的格式和路径。

    • pyspark.RDD.saveAshadopDataSet
    • pyspark.RDD.saveAsHadoopFile
    • pyspark.RDD.saveAsNewAPIHadoopDataset
    • pyspark.RDD.saveasnewapiHadoop文件
    • pyspark.RDD.saveAsPickleFile
    • pyspark.RDD.saveAsSequenceFile pyspark.RDD.saveAsTextFile
    • pyspark.sql.DataFrame.save
    • pyspark.sql.DataFrameWriter.save
    • pyspark.sql.DataFrame.saveAspQuetFile
    • pyspark.sql.DataFrame.saveAsTable
    • pyspark.sql.DataFrameWriter.saveAsTable
最后但并非最不重要

  • 更好地理解如何使用数据帧编写器