Python PySpark textFile命令中的正则表达式
我正在试图弄清楚在选择多个感兴趣的文件时,我可以将这个命令推到多大程度。例如,我使用下面的通配符拾取多个目录中感兴趣的所有文件,但我希望使用正则表达式或类似的方法限制目录名的长度Python PySpark textFile命令中的正则表达式,python,regex,apache-spark,glob,pyspark,Python,Regex,Apache Spark,Glob,Pyspark,我正在试图弄清楚在选择多个感兴趣的文件时,我可以将这个命令推到多大程度。例如,我使用下面的通配符拾取多个目录中感兴趣的所有文件,但我希望使用正则表达式或类似的方法限制目录名的长度 lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv") 但是我可以限制目录名的长度而不是*?例如使用^[0-9]{8}$?或者不需要借助预筛选来构建有效目录列表的任何方法。为了保持简单,这里需要的是一个简单的非正则表达式。您可以这样做: glob
lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")
但是我可以限制目录名的长度而不是
*
?例如使用^[0-9]{8}$
?或者不需要借助预筛选来构建有效目录列表的任何方法。为了保持简单,这里需要的是一个简单的非正则表达式。您可以这样做:
glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)