Python 正在读取.parquet.gz,pyspark中的gzip拼花文件

Python 正在读取.parquet.gz,pyspark中的gzip拼花文件,python,pyspark,gzip,parquet,Python,Pyspark,Gzip,Parquet,您好,我正在尝试阅读拼花地板文件,该文件已被压缩并保存为spark中的sample.parquet.gz文件,如果有人能告诉我怎么做 PS-我知道我可以很容易地在spark中读取gz.parquet文件,但我想读取一个使用gzip压缩的拼花,在您的措辞中,gz.parquet和parquet.gz之间有什么区别?压缩通常是拼花地板格式的内部内容,它不会影响您使用的编解码器。您保存了文件df.write.parquet('./sample.parquet'),然后将此文件压缩为sample.par

您好,我正在尝试阅读拼花地板文件,该文件已被压缩并保存为spark中的sample.parquet.gz文件,如果有人能告诉我怎么做


PS-我知道我可以很容易地在spark中读取gz.parquet文件,但我想读取一个使用gzip压缩的拼花,在您的措辞中,
gz.parquet
parquet.gz
之间有什么区别?压缩通常是拼花地板格式的内部内容,它不会影响您使用的编解码器。您保存了文件df.write.parquet('./sample.parquet'),然后将此文件压缩为sample.parquet.gz,而如果使用df.write.option('compression','gzip').parquet('sample.gzip.parquet:)。在这方面。数据首先被压缩并存储为拼花地板