Python 将数百万文件移动到亚马逊冰川

Python 将数百万文件移动到亚马逊冰川,python,amazon-web-services,amazon-glacier,Python,Amazon Web Services,Amazon Glacier,我需要将总大小为TBs的数以百万计的文件中的几个10s移动到冰川保险库中。这将需要很长时间,我担心在这个过程中会出现错误 如何防止一个上传停止在中间的情况,然后我不确定哪些文件已经上载并必须重新启动?我应该编写自己的python代码,使用列表,检查Glacier文件是否已经上传,或者是否有内置的工具 谢谢转机 您可以使用一个新的[AWS Snowcone]单元-它存储8TB的数据 或者,决定上传需要多长时间取决于带宽。使用aws s3 sync命令可以从故障中恢复,但读取数百万个文件可能需要很长

我需要将总大小为TBs的数以百万计的文件中的几个10s移动到冰川保险库中。这将需要很长时间,我担心在这个过程中会出现错误

如何防止一个上传停止在中间的情况,然后我不确定哪些文件已经上载并必须重新启动?我应该编写自己的python代码,使用列表,检查Glacier文件是否已经上传,或者是否有内置的工具

谢谢

转机 您可以使用一个新的[AWS Snowcone]单元-它存储8TB的数据

或者,决定上传需要多长时间取决于带宽。使用
aws s3 sync
命令可以从故障中恢复,但读取数百万个文件可能需要很长时间。如果在复制时可以将其分割为较小的块,那将是一件好事

实际上,这可能是一个很好的用例:

AWS DataSync是一种在线数据传输服务,可简化、自动化并加速通过internet或AWS Direct Connect向AWS存储服务和从AWS存储服务复制大量数据。DataSync可在网络文件系统(NFS)、服务器消息块(SMB)之间复制数据文件服务器(AWS Snowcone)和Amazon简单存储服务(Amazon S3)存储桶、Amazon EFS文件系统和Amazon FSx for Windows文件服务器文件系统

它将以更快、更易管理的方式移动数据

存储 我建议不要将数据移动到冰川保险库中。访问冰川的速度非常慢,需要软件工具才能正确使用

相反,我建议将您的数据放入Amazon S3。然后您可以使用更改对象的存储类别。如果您的目标是低成本存储,则选择Glacier Deep Archive,这实际上是普通Glacier服务价格的一半


如果你想坚持使用冰川保险库,我建议你进行一些“试用”上传和检索,以了解你是否愿意使用该服务获取所有数据。(坦率地说,现在没有什么理由直接访问冰川。)

一旦文件成功上传,你能在本地删除它吗?你的标题看起来像是南美的昆虫搬迁项目。你可能会得到snowball…我不确定它有多大…但我认为在6TB左右,你可以从snowball中获得显著的好处(你在邮件中发送给亚马逊的硬盘驱动器)考虑到您的带宽,您是否估计了总传输时间?感谢大家的宝贵意见,并对打字错误表示抱歉:-)。我们必须保留文件的本地副本。我们认为上载所有文件需要7-10天。太好了!我们不知道S3深度存档选项,也不知道数据同步服务。我们将研究这两个选项。