从多个目录创建文本文件-PySpark

从多个目录创建文本文件-PySpark,pyspark,Pyspark,我试图在pyspark中创建一个文本文件,其中日志按照相同的逻辑分布在许多不同的目录中。然而,我扫描文档有一段时间了,除了指定所有用逗号分隔的目录外,它并不可行 logsample=sc.textFile(“s3://[…]/2015/02/01/00/17/transactions”) 知道如何指定秒、分钟、焦耳等的完整范围吗?使用glob模块 import glob glob.glob('./[0-9].*') 我看到一些人推荐[],所以我尝试了类似这样的方法:logsample=sc.t

我试图在pyspark中创建一个文本文件,其中日志按照相同的逻辑分布在许多不同的目录中。然而,我扫描文档有一段时间了,除了指定所有用逗号分隔的目录外,它并不可行

logsample=sc.textFile(“s3://[…]/2015/02/01/00/17/transactions”)

知道如何指定秒、分钟、焦耳等的完整范围吗?

使用glob模块

import glob
glob.glob('./[0-9].*')

我看到一些人推荐[],所以我尝试了类似这样的方法:logsample=sc.textFile(“s3://[…]/2015/02/01/00/[00-59]/transactions”),但我遇到了以下错误:py4j.protocol.Py4JJavaError:调用o27.partitions时出错。