Google cloud platform GCP桶叶级节点文件以及完整路径

Google cloud platform GCP桶叶级节点文件以及完整路径,google-cloud-platform,Google Cloud Platform,我们在许多存储桶和项目中拥有数百万个对象。我们需要获取所有项目中所有bucket的叶级信息。gsutil正在执行此操作,但速度太慢。我们尝试过使用存储api,但速度很慢,因为它必须遍历文件夹前缀,然后遍历叶节点,所以速度太慢。有没有其他快速方法可以获取leaf leave节点的详细信息 范例 Bucket/Folder1/subfolder1/Subfolder2/subfolder3/subfolder4/subfolder5/File.txt 基本上,我们希望获得叶节点文件的大小和其他详细信

我们在许多存储桶和项目中拥有数百万个对象。我们需要获取所有项目中所有bucket的叶级信息。gsutil正在执行此操作,但速度太慢。我们尝试过使用存储api,但速度很慢,因为它必须遍历文件夹前缀,然后遍历叶节点,所以速度太慢。有没有其他快速方法可以获取leaf leave节点的详细信息

范例

Bucket/Folder1/subfolder1/Subfolder2/subfolder3/subfolder4/subfolder5/File.txt


基本上,我们希望获得叶节点文件的大小和其他详细信息。挑战在于需要提取5亿多条记录。

云存储是一个blob存储。这意味着每个对象都是叶子。目录不存在,它是唯一具有相同前缀的对象

因此,除了扫描所有文件()之外,您没有其他解决方案。并调用以获取对象的大小

因此,先调用一个API来获取对象的可分页列表,然后再调用另一个API来获取对象的大小。每个物体大约150毫秒


现在,您已经了解了GCS平台的工作原理,您可以设计应用程序来大规模并行化呼叫并加快流程。但是没有什么神奇的。5亿个物体需要时间扫描