用Python将S3数据并行/异步下载到EC2?

用Python将S3数据并行/异步下载到EC2?,python,amazon-s3,amazon-ec2,Python,Amazon S3,Amazon Ec2,我需要分析S3中存储的大型数据文件。每批由约50个文件组成,每个文件都可以独立分析 我想将S3数据并行下载到EC2实例中,并设置触发器,在下载的每个文件上启动分析过程 是否有任何库可以处理完整模型上的异步下载触发器 如果没有,我会考虑使用pyprocessing设置多个下载进程,每个进程将下载并分析一个文件片段。这听起来合理还是有更好的选择?听起来你在寻找: “Twisted是一个用Python编写的事件驱动网络引擎,并根据MIT许可证获得许可。” 我已经在相当多的异步项目中使用了twiste

我需要分析S3中存储的大型数据文件。每批由约50个文件组成,每个文件都可以独立分析

我想将S3数据并行下载到EC2实例中,并设置触发器,在下载的每个文件上启动分析过程

是否有任何库可以处理完整模型上的异步下载触发器


如果没有,我会考虑使用pyprocessing设置多个下载进程,每个进程将下载并分析一个文件片段。这听起来合理还是有更好的选择?

听起来你在寻找:

“Twisted是一个用Python编写的事件驱动网络引擎,并根据MIT许可证获得许可。”


我已经在相当多的异步项目中使用了twisted python,这些项目涉及通过Internet和子流程进行通信。

我不知道已经存在的任何东西能够完全满足您的要求,但即使没有,它也应该很容易与python结合在一起。对于线程化方法,您可以看一看它,它执行多线程HTTP下载以测试下载镜像

编辑:我发现的几个软件包可能为您完成大部分工作,并成为您所寻找的


    • 在回答我自己的问题时,我对Amazon S3 python库做了一个简单的修改,让您可以分块下载文件或逐行阅读