Apache spark 是否有任何方法可以使用spark从s3并行读取多个拼花地板路径？_Apache Spark_Hadoop_Amazon S3_Parquet

Apache spark 是否有任何方法可以使用spark从s3并行读取多个拼花地板路径？

apache-spark hadoop amazon-s3

Apache spark 是否有任何方法可以使用spark从s3并行读取多个拼花地板路径？,apache-spark,hadoop,amazon-s3,parquet,Apache Spark,Hadoop,Amazon S3,Parquet,我的数据存储在不同路径下的s3（拼花格式）中，我使用spark.read.parquet（paths:*）将所有路径读取到一个数据帧中。不幸的是，spark按顺序（一条接一条路径）读取拼花地板元数据，而不是并行读取。 spark读取元数据后，将并行读取数据本身。但是元数据部分速度非常慢，而且机器没有得到充分利用是否有任何方法可以使用spark从s3并行读取多个拼花地板路径如果您能就此发表意见，我将不胜感激。这是否回答了您的问题？不，我已经在传递路径列表并将它们加载到一起。问题在于，每个路径

我的数据存储在不同路径下的s3（拼花格式）中，我使用

spark.read.parquet（paths:*）

将所有路径读取到一个数据帧中。不幸的是，spark按顺序（一条接一条路径）读取拼花地板元数据，而不是并行读取。 spark读取元数据后，将并行读取数据本身。但是元数据部分速度非常慢，而且机器没有得到充分利用

是否有任何方法可以使用spark从s3并行读取多个拼花地板路径

如果您能就此发表意见，我将不胜感激。

这是否回答了您的问题？不，我已经在传递路径列表并将它们加载到一起。问题在于，每个路径元数据都是在单独的阶段读取的。e、如果我将5条路径一起传递，它将被转换为5个不同的阶段，依次运行-这确实会提高利用率。这是否回答了您的问题？不，我已经在传递路径列表并将它们加载到一起。问题在于，每个路径元数据都是在单独的阶段读取的。e、 g如果我同时传递5条路径，它将被转换为5个不同的阶段，依次运行-这确实会提高利用率。