Apache spark 从PySpark中压缩的XML文件中读取数据_Apache Spark_Pyspark_Databricks

Apache spark 从PySpark中压缩的XML文件中读取数据

apache-spark pyspark

Apache spark 从PySpark中压缩的XML文件中读取数据,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我有一个场景，我必须读取在PySpark中压缩在一起的多个XML文件 Zip文件大小：30 GB 解压时的大小：600 GB 单个文件的最大大小：40 GB 提取时间：4小时我能够使用databricks API以预定义的模式读取提取的XML数据。但是提取数据本身需要花费大量的时间。有没有一种方法可以直接从zip文件中读取数据，而不是提取数据提前感谢 @ForceBru：我更关心的是在spark中阅读，而不是使用本地Python。据我所知，这两个问题是不同的。一个文件中有600GB吗？没有多

我有一个场景，我必须读取在PySpark中压缩在一起的多个XML文件

Zip文件大小：30 GB

解压时的大小：600 GB

单个文件的最大大小：40 GB

提取时间：4小时

我能够使用databricks API以预定义的模式读取提取的XML数据。但是提取数据本身需要花费大量的时间。有没有一种方法可以直接从zip文件中读取数据，而不是提取数据

提前感谢

@ForceBru：我更关心的是在spark中阅读，而不是使用本地Python。据我所知，这两个问题是不同的。一个文件中有600GB吗？没有多个文件。它们是如何压缩的？Gzip？@ForceBru：我更关心的是在spark中阅读，而不是使用本机Python。据我所知，这两个问题是不同的。一个文件中有600GB吗？没有多个文件。它们是如何压缩的？Gzip？