Pyspark-在读取Pyspark数据帧时,如何根据文件名中的regex模式过滤掉.gz文件

Pyspark-在读取Pyspark数据帧时,如何根据文件名中的regex模式过滤掉.gz文件,pyspark,Pyspark,我的文件夹结构如下: 数据/level1=x/level2=y/level3=z/ 在这个文件夹中,我有一些文件如下: 文件名\u类型\u 20201212.gz 文件名\u类型\u 20201213.gz 文件名\u pq\u类型\u 20201213.gz 如何将前缀为“filename\u type”的文件只读到数据帧中 有许多level1、level2和level3子文件夹。因此,在读取具有上述文件名前缀的文件时,必须将数据/文件夹加载到pyspark数据帧中

我的文件夹结构如下: 数据/level1=x/level2=y/level3=z/

在这个文件夹中,我有一些文件如下: 文件名\u类型\u 20201212.gz 文件名\u类型\u 20201213.gz 文件名\u pq\u类型\u 20201213.gz

如何将前缀为“filename\u type”的文件只读到数据帧中

有许多level1、level2和level3子文件夹。因此,在读取具有上述文件名前缀的文件时,必须将数据/文件夹加载到pyspark数据帧中