Apache spark 将嵌套JSON插入Hadoop(Spark Java)的快速方法

Apache spark 将嵌套JSON插入Hadoop(Spark Java)的快速方法,apache-spark,hadoop,hive,hdfs,Apache Spark,Hadoop,Hive,Hdfs,我需要每天向Hadoop写入大约150B的嵌套Json记录(使用Spark Java) 在性能方面,“快速”的方法是什么,例如: 创建配置单元表并将拼花文件写入HDFS 或者从Json创建Dataset,并使用saveAsTable 或者有其他方法吗?这些选项的具体区别是什么?Spark可以自己创建拼花蜂巢桌。。。如果你只是想要HDFS中的数据,为什么你需要蜂巢或拼花呢?@cricket_007,实际上我只是想知道在性能方面,对我来说什么是最好的选择RC和拼花显然比JSON好。我认为,使用Spa

我需要每天向Hadoop写入大约150B的嵌套Json记录(使用Spark Java)

在性能方面,“快速”的方法是什么,例如:

  • 创建配置单元表并将拼花文件写入HDFS
  • 或者从Json创建
    Dataset
    ,并使用
    saveAsTable

  • 或者有其他方法吗?

    这些选项的具体区别是什么?Spark可以自己创建拼花蜂巢桌。。。如果你只是想要HDFS中的数据,为什么你需要蜂巢或拼花呢?@cricket_007,实际上我只是想知道在性能方面,对我来说什么是最好的选择RC和拼花显然比JSON好。我认为,使用Spark还是Hive来获取这种格式的数据并不重要