如何使用Scala读取子目录下的多个Json文件

如何使用Scala读取子目录下的多个Json文件,json,scala,hadoop,Json,Scala,Hadoop,我正在寻找一段代码片段,以找到使用scala读取hadoop子目录下多个嵌套JSON文件的最佳实践 如果我们可以将上述JSON文件写入hadoop中其他目录中的一个文件,那就更好了 感谢您的帮助 谢谢 PG您可以使用sqlContext.read.json(“输入文件路径”)读取json文件,它返回一个数据帧 获得数据帧后,只需使用df.write.json(“输出文件路径”)将df作为json文件写入即可 代码示例:如果使用Spark 2.0 val spark = SparkSession

我正在寻找一段代码片段,以找到使用scala读取hadoop子目录下多个嵌套JSON文件的最佳实践

如果我们可以将上述JSON文件写入hadoop中其他目录中的一个文件,那就更好了

感谢您的帮助

谢谢
PG

您可以使用
sqlContext.read.json(“输入文件路径”)
读取json文件,它返回一个数据帧

获得数据帧后,只需使用df.write.json(“输出文件路径”)将df作为json文件写入即可

代码示例:如果使用Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")

:您是在Scala API中使用Spark,还是在Hadoop中使用Scala?谢谢您的回复。我将spark与scala API一起使用。您可以使用
sqlContext.read.json(“json文件路径”)
来读取json文件,它返回一个
数据帧。但是你说嵌套目录,json文件有不同的模式吗?谢谢Shankar。文件将具有相似的模式,我猜读取文件是有效的。现在,下一步是我可以将所有文件写入一个json文件吗?为了提高性能,可能需要1-2个步骤。我认为最重要的答案可能会有所帮助: