如何使用pyspark使用的通配符读取hdfs文件_Pyspark_Hdfs_Parquet

如何使用pyspark使用的通配符读取hdfs文件

pyspark

如何使用pyspark使用的通配符读取hdfs文件,pyspark,hdfs,parquet,Pyspark,Hdfs,Parquet,有一些拼花地板文件路径是： /a/b/c='str1'/d='str' /a/b/c='str2'/d='str' /a/b/c='str3'/d='str' 我想阅读拼花地板文件，如下所示： df = spark.read.parquet('/a/b/c='*'/d='str') 但是使用“*”通配符不起作用。我该怎么做？感谢您的帮助您需要转义单引号： df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'') df = spark.read.par

有一些拼花地板文件路径是：

/a/b/c='str1'/d='str'

/a/b/c='str2'/d='str'

/a/b/c='str3'/d='str'

我想阅读拼花地板文件，如下所示：

df = spark.read.parquet('/a/b/c='*'/d='str')

但是使用

“*”

通配符不起作用。我该怎么做？感谢您的帮助

您需要转义单引号：

df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'')

df = spark.read.parquet("/a/b/c='*'/d='str'")

。。。或者只使用双引号：

df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'')

df = spark.read.parquet("/a/b/c='*'/d='str'")

@张欣：嗯，应该行。HDFS路径是否包含这些引号？另外，请提供您拥有的确切代码-

“/a/b/c='*'/d='str'

不是有效的Python字符串