Apache spark 从PySpark中压缩的XML文件中读取数据

Apache spark 从PySpark中压缩的XML文件中读取数据,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我有一个场景,我必须读取在PySpark中压缩在一起的多个XML文件 Zip文件大小:30 GB 解压时的大小:600 GB 单个文件的最大大小:40 GB 提取时间:4小时 我能够使用databricks API以预定义的模式读取提取的XML数据。但是提取数据本身需要花费大量的时间。有没有一种方法可以直接从zip文件中读取数据,而不是提取数据 提前感谢 @ForceBru:我更关心的是在spark中阅读,而不是使用本地Python。据我所知,这两个问题是不同的。一个文件中有600GB吗?没有多

我有一个场景,我必须读取在PySpark中压缩在一起的多个XML文件

Zip文件大小:30 GB

解压时的大小:600 GB

单个文件的最大大小:40 GB

提取时间:4小时

我能够使用databricks API以预定义的模式读取提取的XML数据。但是提取数据本身需要花费大量的时间。有没有一种方法可以直接从zip文件中读取数据,而不是提取数据


提前感谢

@ForceBru:我更关心的是在spark中阅读,而不是使用本地Python。据我所知,这两个问题是不同的。一个文件中有600GB吗?没有多个文件。它们是如何压缩的?Gzip?@ForceBru:我更关心的是在spark中阅读,而不是使用本机Python。据我所知,这两个问题是不同的。一个文件中有600GB吗?没有多个文件。它们是如何压缩的?Gzip?