Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从S3在spark sql中加载多个JSON文件。性能问题_Json_Scala_Amazon S3_Apache Spark Sql - Fatal编程技术网

从S3在spark sql中加载多个JSON文件。性能问题

从S3在spark sql中加载多个JSON文件。性能问题,json,scala,amazon-s3,apache-spark-sql,Json,Scala,Amazon S3,Apache Spark Sql,我有一个AmazonS3文件夹,其中包含多个json文件(100K+) 我想使用spark sql转换数据,但我有性能问题 如果我这样做 val myjonDF = sqlContext.jsonFile("s3:/myfolder/") 要花很长时间才能完成。 如果你知道更好的方法,请与我分享 我没有在S3中尝试过100K+文件,但您是否尝试过: val myjonDF = sqlContext.jsonFile("s3a://myfolder/*") 我没有在S3中尝试过100K+文件,

我有一个AmazonS3文件夹,其中包含多个json文件(100K+) 我想使用spark sql转换数据,但我有性能问题

如果我这样做

val myjonDF = sqlContext.jsonFile("s3:/myfolder/")
要花很长时间才能完成。
如果你知道更好的方法,请与我分享

我没有在S3中尝试过100K+文件,但您是否尝试过:

val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")

我没有在S3中尝试过100K+文件,但您是否尝试过:

val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")