如何使用Scala读取子目录下的多个Json文件_Json_Scala_Hadoop

如何使用Scala读取子目录下的多个Json文件

json scala hadoop

如何使用Scala读取子目录下的多个Json文件,json,scala,hadoop,Json,Scala,Hadoop,我正在寻找一段代码片段，以找到使用scala读取hadoop子目录下多个嵌套JSON文件的最佳实践如果我们可以将上述JSON文件写入hadoop中其他目录中的一个文件，那就更好了感谢您的帮助谢谢 PG您可以使用sqlContext.read.json（“输入文件路径”）读取json文件，它返回一个数据帧获得数据帧后，只需使用df.write.json（“输出文件路径”）将df作为json文件写入即可代码示例：如果使用Spark 2.0 val spark = SparkSession

我正在寻找一段代码片段，以找到使用scala读取hadoop子目录下多个嵌套JSON文件的最佳实践

如果我们可以将上述JSON文件写入hadoop中其他目录中的一个文件，那就更好了

感谢您的帮助

谢谢

您可以使用

sqlContext.read.json（“输入文件路径”）

读取json文件，它返回一个数据帧

获得数据帧后，只需使用df.write.json（“输出文件路径”）将df作为json文件写入即可

代码示例：如果使用Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")

：您是在Scala API中使用Spark，还是在Hadoop中使用Scala？谢谢您的回复。我将spark与scala API一起使用。您可以使用

sqlContext.read.json（“json文件路径”）

来读取json文件，它返回一个

数据帧。但是你说嵌套目录，json文件有不同的模式吗？谢谢Shankar。文件将具有相似的模式，我猜读取文件是有效的。现在，下一步是我可以将所有文件写入一个json文件吗？为了提高性能，可能需要1-2个步骤。我认为最重要的答案可能会有所帮助：