Apache spark 将嵌套JSON插入Hadoop（Spark Java）的快速方法_Apache Spark_Hadoop_Hive_Hdfs

Apache spark 将嵌套JSON插入Hadoop（Spark Java）的快速方法

apache-spark hadoop hive

Apache spark 将嵌套JSON插入Hadoop（Spark Java）的快速方法,apache-spark,hadoop,hive,hdfs,Apache Spark,Hadoop,Hive,Hdfs,我需要每天向Hadoop写入大约150B的嵌套Json记录（使用Spark Java）在性能方面，“快速”的方法是什么，例如：创建配置单元表并将拼花文件写入HDFS 或者从Json创建Dataset，并使用saveAsTable 或者有其他方法吗？这些选项的具体区别是什么？Spark可以自己创建拼花蜂巢桌。。。如果你只是想要HDFS中的数据，为什么你需要蜂巢或拼花呢？@cricket_007，实际上我只是想知道在性能方面，对我来说什么是最好的选择RC和拼花显然比JSON好。我认为，使用Spa

我需要每天向Hadoop写入大约150B的嵌套Json记录（使用Spark Java）

在性能方面，“快速”的方法是什么，例如：

创建配置单元表并将拼花文件写入HDFS

或者从Json创建

Dataset

，并使用

saveAsTable

或者有其他方法吗？

这些选项的具体区别是什么？Spark可以自己创建拼花蜂巢桌。。。如果你只是想要HDFS中的数据，为什么你需要蜂巢或拼花呢？@cricket_007，实际上我只是想知道在性能方面，对我来说什么是最好的选择RC和拼花显然比JSON好。我认为，使用Spark还是Hive来获取这种格式的数据并不重要