从S3在spark sql中加载多个JSON文件。性能问题_Json_Scala_Amazon S3_Apache Spark Sql

从S3在spark sql中加载多个JSON文件。性能问题

json scala amazon-s3

从S3在spark sql中加载多个JSON文件。性能问题,json,scala,amazon-s3,apache-spark-sql,Json,Scala,Amazon S3,Apache Spark Sql,我有一个AmazonS3文件夹，其中包含多个json文件（100K+）我想使用spark sql转换数据，但我有性能问题如果我这样做 val myjonDF = sqlContext.jsonFile("s3:/myfolder/") 要花很长时间才能完成。如果你知道更好的方法，请与我分享我没有在S3中尝试过100K+文件，但您是否尝试过： val myjonDF = sqlContext.jsonFile("s3a://myfolder/*") 我没有在S3中尝试过100K+文件，

我有一个AmazonS3文件夹，其中包含多个json文件（100K+）我想使用spark sql转换数据，但我有性能问题

如果我这样做

val myjonDF = sqlContext.jsonFile("s3:/myfolder/")

要花很长时间才能完成。

如果你知道更好的方法，请与我分享

我没有在S3中尝试过100K+文件，但您是否尝试过：

val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")

我没有在S3中尝试过100K+文件，但您是否尝试过：

val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")