Python pyspark.sql.DataFrameReader是否在S3上并行读取单个csv文件?
因此,我正在查看pyspark文档并使用Python pyspark.sql.DataFrameReader是否在S3上并行读取单个csv文件?,python,apache-spark,amazon-s3,pyspark,apache-spark-sql,Python,Apache Spark,Amazon S3,Pyspark,Apache Spark Sql,因此,我正在查看pyspark文档并使用 我想知道,当我给它一个S3路径时,它会并行处理单个csv文件吗?每个工作节点如何在S3上读取相同的csv文件?每当我们从S3将文件加载到pyspark时,首先将文件转储到本地hdfs temp或本地系统temp。
我想知道,当我给它一个S3路径时,它会并行处理单个csv文件吗?每个工作节点如何在S3上读取相同的csv文件?每当我们从S3将文件加载到pyspark时,首先将文件转储到本地hdfs temp或本地系统temp。