Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-apps-script/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在spark streaming中使用通配符或*列出云存储桶?_Apache Spark_Google Cloud Platform_Pyspark_Spark Streaming - Fatal编程技术网

Apache spark 如何在spark streaming中使用通配符或*列出云存储桶?

Apache spark 如何在spark streaming中使用通配符或*列出云存储桶?,apache-spark,google-cloud-platform,pyspark,spark-streaming,Apache Spark,Google Cloud Platform,Pyspark,Spark Streaming,如何在spark streaming中使用通配符或*列出云存储桶 我想列出云存储中与gs://bucketname*匹配的所有存储桶。我尝试过使用gsutil,它正在工作,但在spark read或readstream中不起作用 gs://bucket1 gs://bucket2 gs://bucketN 工作:gsutil ls gs://bucket* 不工作:sc.textFile(“gs://bucket*”)。您是否尝试过使用中所述的python客户端库?您可以使用前缀来搜索来自的文

如何在spark streaming中使用通配符或*列出云存储桶

我想列出云存储中与gs://bucketname*匹配的所有存储桶。我尝试过使用gsutil,它正在工作,但在spark read或readstream中不起作用

gs://bucket1

gs://bucket2
gs://bucketN

工作:gsutil ls gs://bucket*
不工作:sc.textFile(“gs://bucket*”)。

您是否尝试过使用中所述的python客户端库?您可以使用前缀来搜索来自的文档中提到的存储桶。感谢您的回复。但是,我的目的是将多个bucket中的文件读取到rdd中,如下所示:sc.textFile(“gs://bucket*/my_dir/abcd*.txt”)但是,sc.textFile(“gs://bucket1/my_dir/abcd*.txt”)工作正常。因此,您希望列出所有bucket的所有文件,而不仅仅是所有bucket?是的,正确的……没有直接的方法可以实现这一点。你能做的就是遍历bucket,以获取每个bucket中的文件,我会先获取bucket列表,将它们保存在一个数组中,然后遍历该数组以列出文件。