Apache spark 是否有任何方法可以使用spark从s3并行读取多个拼花地板路径?

Apache spark 是否有任何方法可以使用spark从s3并行读取多个拼花地板路径?,apache-spark,hadoop,amazon-s3,parquet,Apache Spark,Hadoop,Amazon S3,Parquet,我的数据存储在不同路径下的s3(拼花格式)中,我使用spark.read.parquet(paths:*)将所有路径读取到一个数据帧中。 不幸的是,spark按顺序(一条接一条路径)读取拼花地板元数据,而不是并行读取。 spark读取元数据后,将并行读取数据本身。但是元数据部分速度非常慢,而且机器没有得到充分利用 是否有任何方法可以使用spark从s3并行读取多个拼花地板路径 如果您能就此发表意见,我将不胜感激。这是否回答了您的问题?不,我已经在传递路径列表并将它们加载到一起。问题在于,每个路径

我的数据存储在不同路径下的s3(拼花格式)中,我使用
spark.read.parquet(paths:*)
将所有路径读取到一个数据帧中。 不幸的是,spark按顺序(一条接一条路径)读取拼花地板元数据,而不是并行读取。 spark读取元数据后,将并行读取数据本身。但是元数据部分速度非常慢,而且机器没有得到充分利用

是否有任何方法可以使用spark从s3并行读取多个拼花地板路径


如果您能就此发表意见,我将不胜感激。

这是否回答了您的问题?不,我已经在传递路径列表并将它们加载到一起。问题在于,每个路径元数据都是在单独的阶段读取的。e、 如果我将5条路径一起传递,它将被转换为5个不同的阶段,依次运行-这确实会提高利用率。这是否回答了您的问题?不,我已经在传递路径列表并将它们加载到一起。问题在于,每个路径元数据都是在单独的阶段读取的。e、 g如果我同时传递5条路径,它将被转换为5个不同的阶段,依次运行-这确实会提高利用率。