从S3在spark sql中加载多个JSON文件。性能问题
我有一个AmazonS3文件夹,其中包含多个json文件(100K+) 我想使用spark sql转换数据,但我有性能问题 如果我这样做从S3在spark sql中加载多个JSON文件。性能问题,json,scala,amazon-s3,apache-spark-sql,Json,Scala,Amazon S3,Apache Spark Sql,我有一个AmazonS3文件夹,其中包含多个json文件(100K+) 我想使用spark sql转换数据,但我有性能问题 如果我这样做 val myjonDF = sqlContext.jsonFile("s3:/myfolder/") 要花很长时间才能完成。 如果你知道更好的方法,请与我分享 我没有在S3中尝试过100K+文件,但您是否尝试过: val myjonDF = sqlContext.jsonFile("s3a://myfolder/*") 我没有在S3中尝试过100K+文件,
val myjonDF = sqlContext.jsonFile("s3:/myfolder/")
要花很长时间才能完成。
如果你知道更好的方法,请与我分享 我没有在S3中尝试过100K+文件,但您是否尝试过:
val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")
我没有在S3中尝试过100K+文件,但您是否尝试过:
val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")