如何使用spark（python）读取zip文件中的CSV文件内容_Python_Hadoop_Apache Spark_Zip_Pyspark

如何使用spark（python）读取zip文件中的CSV文件内容

python hadoop apache-spark pyspark

如何使用spark（python）读取zip文件中的CSV文件内容,python,hadoop,apache-spark,zip,pyspark,Python,Hadoop,Apache Spark,Zip,Pyspark,我有多个zip文件，其中包含两种类型的文件（A.csv和B.csv） /data/jan.zip-->包含A.csv和B.csv /data/feb.zip-->包含A.csv和B.csv 我想使用pyspark读取所有zip文件中所有A.csv文件的内容 textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip") textFile=sc.textFile（“hdfs:///data/*.zip“）有人能告诉我如何将.csv文

我有多个zip文件，其中包含两种类型的文件（A.csv和B.csv）

/data/jan.zip-->包含A.csv和B.csv
/data/feb.zip-->包含A.csv和B.csv

我想使用pyspark读取所有zip文件中所有A.csv文件的内容

 textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")

textFile=sc.textFile（“hdfs:///data/*.zip“）

有人能告诉我如何将.csv文件的内容放入RDD吗？

在这里，您希望递归读取zip文件中的所有csv文件

val files = sc.CSVFiles("file://path/to/files/*.zip")
files.flatMap({case (name, content) =>
  unzip(content)
})

def unzip(content: String): List[String] = {
  ...
}

这可能对您有帮助此链接可能对您有帮助