Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PySpark textFile命令中的正则表达式_Python_Regex_Apache Spark_Glob_Pyspark - Fatal编程技术网

Python PySpark textFile命令中的正则表达式

Python PySpark textFile命令中的正则表达式,python,regex,apache-spark,glob,pyspark,Python,Regex,Apache Spark,Glob,Pyspark,我正在试图弄清楚在选择多个感兴趣的文件时,我可以将这个命令推到多大程度。例如,我使用下面的通配符拾取多个目录中感兴趣的所有文件,但我希望使用正则表达式或类似的方法限制目录名的长度 lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv") 但是我可以限制目录名的长度而不是*?例如使用^[0-9]{8}$?或者不需要借助预筛选来构建有效目录列表的任何方法。为了保持简单,这里需要的是一个简单的非正则表达式。您可以这样做: glob

我正在试图弄清楚在选择多个感兴趣的文件时,我可以将这个命令推到多大程度。例如,我使用下面的通配符拾取多个目录中感兴趣的所有文件,但我希望使用正则表达式或类似的方法限制目录名的长度

lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")

但是我可以限制目录名的长度而不是
*
?例如使用
^[0-9]{8}$
?或者不需要借助预筛选来构建有效目录列表的任何方法。

为了保持简单,这里需要的是一个简单的非正则表达式。您可以这样做:

glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)