Python (PY)Spark:如何读取扩展名为“.gz”的“.txt”文件

Python (PY)Spark:如何读取扩展名为“.gz”的“.txt”文件,python,pyspark,Python,Pyspark,我需要在spark中加载一个纯txt RDD。但由于某些原因,要加载的文件的文件名必须命名为xxx.gz。默认情况下,使用sc.textFile时,此文件被识别为gz文件。如何让spark将该文件识别为纯txt文件?您可以使用 那不是一个文本文件。gz是的扩展。GZip包可能包含一个或多个文本文件这可能是一个spark问题,标签中提到了这一点 gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, n

我需要在spark中加载一个纯txt RDD。但由于某些原因,要加载的文件的文件名必须命名为xxx.gz。默认情况下,使用sc.textFile时,此文件被识别为gz文件。如何让spark将该文件识别为纯txt文件?

您可以使用


那不是一个文本文件。gz是的扩展。GZip包可能包含一个或多个文本文件这可能是一个spark问题,标签中提到了这一点
gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, newline=None)