Amazon s3 将本地文件与s3存储桶进行比较,确定哪些文件(完整路径)不在存储桶中
我有一个本地文件共享,它被复制到一个雪球中,并导入到一个s3存储桶中(~70TB;许多小文件) 自导入以来,用户已将内容添加到本地共享。 我正在尝试获取所有不存在的文件的列表,然后将它们传输到bucket 我尝试过同步和s3cmd同步,但它必须遍历每个项目,我的想法是,如果我导出一个列表,然后运行一个只复制需要移动的项目,它将节省大量时间Amazon s3 将本地文件与s3存储桶进行比较,确定哪些文件(完整路径)不在存储桶中,amazon-s3,diff,local,Amazon S3,Diff,Local,我有一个本地文件共享,它被复制到一个雪球中,并导入到一个s3存储桶中(~70TB;许多小文件) 自导入以来,用户已将内容添加到本地共享。 我正在尝试获取所有不存在的文件的列表,然后将它们传输到bucket 我尝试过同步和s3cmd同步,但它必须遍历每个项目,我的想法是,如果我导出一个列表,然后运行一个只复制需要移动的项目,它将节省大量时间 如果您认为您的文件没有更改,也就是说,如果文件路径是唯一标识内容的,请确定您可以这样做。此外,您可以检查大小是否保持不变 要获取s3存储桶中的对象列表,请使用
如果您认为您的文件没有更改,也就是说,如果文件路径是唯一标识内容的,请确定您可以这样做。此外,您可以检查大小是否保持不变 要获取s3存储桶中的对象列表,请使用:
如果你有大量的文件,你可能更容易通过获取一个列表,它可以提供一个桶内容的每日CSV文件。比较两个列表容易吗?很有可能它们会被分类,并且不会有完全相同的路径。有没有一种方法可以映射s3 bucket并使用类似dir/s/b或find“$PWD”的内容来生成列表?您需要编写一些代码来比较Amazon s3库存中的CSV文件与本地共享的内容。但是,至少它避免了调用AWS来检索S3内容。
aws s3api list-objects --bucket text-content --query 'Contents[].{Key: Key, Size: Size}')