Python 将数百万文件移动到亚马逊冰川_Python_Amazon Web Services_Amazon Glacier

Python 将数百万文件移动到亚马逊冰川

python amazon-web-services

Python 将数百万文件移动到亚马逊冰川,python,amazon-web-services,amazon-glacier,Python,Amazon Web Services,Amazon Glacier,我需要将总大小为TBs的数以百万计的文件中的几个10s移动到冰川保险库中。这将需要很长时间，我担心在这个过程中会出现错误如何防止一个上传停止在中间的情况，然后我不确定哪些文件已经上载并必须重新启动？我应该编写自己的python代码，使用列表，检查Glacier文件是否已经上传，或者是否有内置的工具谢谢转机您可以使用一个新的[AWS Snowcone]单元-它存储8TB的数据或者，决定上传需要多长时间取决于带宽。使用aws s3 sync命令可以从故障中恢复，但读取数百万个文件可能需要很长

我需要将总大小为TBs的数以百万计的文件中的几个10s移动到冰川保险库中。这将需要很长时间，我担心在这个过程中会出现错误

如何防止一个上传停止在中间的情况，然后我不确定哪些文件已经上载并必须重新启动？我应该编写自己的python代码，使用列表，检查Glacier文件是否已经上传，或者是否有内置的工具

谢谢

转机您可以使用一个新的[AWS Snowcone]单元-它存储8TB的数据

或者，决定上传需要多长时间取决于带宽。使用

aws s3 sync

命令可以从故障中恢复，但读取数百万个文件可能需要很长时间。如果在复制时可以将其分割为较小的块，那将是一件好事

实际上，这可能是一个很好的用例：

AWS DataSync是一种在线数据传输服务，可简化、自动化并加速通过internet或AWS Direct Connect向AWS存储服务和从AWS存储服务复制大量数据。DataSync可在网络文件系统（NFS）、服务器消息块（SMB）之间复制数据文件服务器（AWS Snowcone）和Amazon简单存储服务（Amazon S3）存储桶、Amazon EFS文件系统和Amazon FSx for Windows文件服务器文件系统

它将以更快、更易管理的方式移动数据

存储我建议不要将数据移动到冰川保险库中。访问冰川的速度非常慢，需要软件工具才能正确使用

相反，我建议将您的数据放入Amazon S3。然后您可以使用更改对象的存储类别。如果您的目标是低成本存储，则选择Glacier Deep Archive，这实际上是普通Glacier服务价格的一半

如果你想坚持使用冰川保险库，我建议你进行一些“试用”上传和检索，以了解你是否愿意使用该服务获取所有数据。（坦率地说，现在没有什么理由直接访问冰川。）
一旦文件成功上传，你能在本地删除它吗？你的标题看起来像是南美的昆虫搬迁项目。你可能会得到snowball…我不确定它有多大…但我认为在6TB左右，你可以从snowball中获得显著的好处（你在邮件中发送给亚马逊的硬盘驱动器）考虑到您的带宽，您是否估计了总传输时间？感谢大家的宝贵意见，并对打字错误表示抱歉：-）。我们必须保留文件的本地副本。我们认为上载所有文件需要7-10天。太好了！我们不知道S3深度存档选项，也不知道数据同步服务。我们将研究这两个选项。