Apache spark 如何在spark streaming中使用通配符或*列出云存储桶？_Apache Spark_Google Cloud Platform_Pyspark_Spark Streaming

Apache spark 如何在spark streaming中使用通配符或*列出云存储桶？

apache-spark google-cloud-platform pyspark

Apache spark 如何在spark streaming中使用通配符或*列出云存储桶？,apache-spark,google-cloud-platform,pyspark,spark-streaming,Apache Spark,Google Cloud Platform,Pyspark,Spark Streaming,如何在spark streaming中使用通配符或*列出云存储桶我想列出云存储中与gs://bucketname*匹配的所有存储桶。我尝试过使用gsutil，它正在工作，但在spark read或readstream中不起作用 gs://bucket1 gs://bucket2 gs://bucketN 工作：gsutil ls gs://bucket* 不工作：sc.textFile（“gs://bucket*”）。您是否尝试过使用中所述的python客户端库？您可以使用前缀来搜索来自的文

如何在spark streaming中使用通配符或*列出云存储桶

我想列出云存储中与gs://bucketname*匹配的所有存储桶。我尝试过使用gsutil，它正在工作，但在spark read或readstream中不起作用

gs://bucket1

gs://bucket2

gs://bucketN

工作：gsutil ls gs://bucket*

不工作：sc.textFile（“gs://bucket*”）。

您是否尝试过使用中所述的python客户端库？您可以使用前缀来搜索来自的文档中提到的存储桶。感谢您的回复。但是，我的目的是将多个bucket中的文件读取到rdd中，如下所示：sc.textFile（“gs://bucket*/my_dir/abcd*.txt”）但是，sc.textFile（“gs://bucket1/my_dir/abcd*.txt”）工作正常。因此，您希望列出所有bucket的所有文件，而不仅仅是所有bucket？是的，正确的……没有直接的方法可以实现这一点。你能做的就是遍历bucket，以获取每个bucket中的文件，我会先获取bucket列表，将它们保存在一个数组中，然后遍历该数组以列出文件。