Python PySpark textFile命令中的正则表达式_Python_Regex_Apache Spark_Glob_Pyspark

Python PySpark textFile命令中的正则表达式

python regex apache-spark pyspark

Python PySpark textFile命令中的正则表达式,python,regex,apache-spark,glob,pyspark,Python,Regex,Apache Spark,Glob,Pyspark,我正在试图弄清楚在选择多个感兴趣的文件时，我可以将这个命令推到多大程度。例如，我使用下面的通配符拾取多个目录中感兴趣的所有文件，但我希望使用正则表达式或类似的方法限制目录名的长度 lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv") 但是我可以限制目录名的长度而不是*？例如使用^[0-9]{8}$？或者不需要借助预筛选来构建有效目录列表的任何方法。为了保持简单，这里需要的是一个简单的非正则表达式。您可以这样做： glob

我正在试图弄清楚在选择多个感兴趣的文件时，我可以将这个命令推到多大程度。例如，我使用下面的通配符拾取多个目录中感兴趣的所有文件，但我希望使用正则表达式或类似的方法限制目录名的长度

lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")

但是我可以限制目录名的长度而不是

？例如使用

^[0-9]{8}$

？或者不需要借助预筛选来构建有效目录列表的任何方法。

为了保持简单，这里需要的是一个简单的非正则表达式。您可以这样做：

glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)