Apache spark 如何在spark streaming中使用通配符或*列出云存储桶?
如何在spark streaming中使用通配符或*列出云存储桶 我想列出云存储中与gs://bucketname*匹配的所有存储桶。我尝试过使用gsutil,它正在工作,但在spark read或readstream中不起作用 gs://bucket1 gs://bucket2Apache spark 如何在spark streaming中使用通配符或*列出云存储桶?,apache-spark,google-cloud-platform,pyspark,spark-streaming,Apache Spark,Google Cloud Platform,Pyspark,Spark Streaming,如何在spark streaming中使用通配符或*列出云存储桶 我想列出云存储中与gs://bucketname*匹配的所有存储桶。我尝试过使用gsutil,它正在工作,但在spark read或readstream中不起作用 gs://bucket1 gs://bucket2 gs://bucketN 工作:gsutil ls gs://bucket* 不工作:sc.textFile(“gs://bucket*”)。您是否尝试过使用中所述的python客户端库?您可以使用前缀来搜索来自的文
gs://bucketN 工作:gsutil ls gs://bucket*
不工作:sc.textFile(“gs://bucket*”)。您是否尝试过使用中所述的python客户端库?您可以使用前缀来搜索来自的文档中提到的存储桶。感谢您的回复。但是,我的目的是将多个bucket中的文件读取到rdd中,如下所示:sc.textFile(“gs://bucket*/my_dir/abcd*.txt”)但是,sc.textFile(“gs://bucket1/my_dir/abcd*.txt”)工作正常。因此,您希望列出所有bucket的所有文件,而不仅仅是所有bucket?是的,正确的……没有直接的方法可以实现这一点。你能做的就是遍历bucket,以获取每个bucket中的文件,我会先获取bucket列表,将它们保存在一个数组中,然后遍历该数组以列出文件。