Amazon s3 amazon web服务上的后台作业_Amazon S3_Amazon Web Services_Background Process_Amazon Simpledb

Amazon s3 amazon web服务上的后台作业

amazon-s3 amazon-web-services

Amazon s3 amazon web服务上的后台作业,amazon-s3,amazon-web-services,background-process,amazon-simpledb,Amazon S3,Amazon Web Services,Background Process,Amazon Simpledb,我是AWS的新手，所以我需要一些关于如何正确创建后台工作的建议。我有一些数据（约30GB）需要： a）从其他服务器下载；它是一组带有RSS提要中链接的zip存档 b）解压缩到S3 c）处理每个文件或一组解压缩文件，执行数据转换，并将其存储到SimpleDB/S3中 d）根据RSS更新永远重复有人能为AWS的正确解决方案提出一个基本架构吗谢谢 Denis我认为您应该运行一个EC2实例来执行所有需要的任务，并在完成后将其关闭。这样，您将只为EC2运行的时间付费。根据您的体系结构，您可能需

我是AWS的新手，所以我需要一些关于如何正确创建后台工作的建议。我有一些数据（约30GB）需要：

a）从其他服务器下载；它是一组带有RSS提要中链接的zip存档

b）解压缩到S3

c）处理每个文件或一组解压缩文件，执行数据转换，并将其存储到SimpleDB/S3中

d）根据RSS更新永远重复

有人能为AWS的正确解决方案提出一个基本架构吗

谢谢

Denis

我认为您应该运行一个EC2实例来执行所有需要的任务，并在完成后将其关闭。这样，您将只为EC2运行的时间付费。根据您的体系结构，您可能需要一直运行它，但是小实例非常便宜

从其他服务器下载；它是一组带有RSS提要中链接的zip存档

您可以使用wget

解压缩到S3

尝试使用s3工具（github.com/timkay/aws/raw/master/aws）

处理每个文件或一组解压缩文件，执行数据转换，并将其存储到SimpleDB/S3中

编写自己的bash脚本

根据RSS更新永远重复

还有一个bash脚本用于检查更新并通过Cron运行脚本

从其他服务器下载；它是一组带有RSS提要中链接的zip存档

您可以使用wget

解压缩到S3

尝试使用s3工具（github.com/timkay/aws/raw/master/aws）

处理每个文件或一组解压缩文件，执行数据转换，并将其存储到SimpleDB/S3中

编写自己的bash脚本

根据RSS更新永远重复

再来一个bash脚本来检查更新并通过Cron运行脚本首先，编写一些代码来执行a）到c）。测试它，等等

如果您希望定期运行代码，那么它是使用后台流程工作流的好选择。将作业添加到队列中；当它被认为已完成时，将其从队列中删除。每隔一小时左右，在队列中添加一个新作业，意思是“获取RSS更新并解压缩”

您可以使用手工或任何其他后台作业处理服务/库来完成此操作。您应该在EC2或任何其他托管解决方案上设置一个worker实例，该实例将轮询队列，执行任务，然后永远再次轮询

它可能更容易使用，这似乎是为了您正在尝试做的事情（自动化工作流）。注意：我从未真正使用过它

首先，编写一些执行a）到c）的代码。测试它，等等

它可能更容易使用，这似乎是为了您正在尝试做的事情（自动化工作流）。注意：我从未真正使用过它

我认为在Elasticbeanstalk实例上部署代码将在一定程度上为您完成这项工作。因为我看到您在这里处理大量数据，而使用普通EC2实例可能会最大限度地消耗资源（主要是内存）。另外，AWS SQS对处理进行批处理的想法也将有助于优化处理过程，并有效管理服务器端的超时时间

我认为在Elasticbeanstalk实例上部署代码将在一定程度上为您完成这项工作。因为我看到您在这里处理大量数据，而使用普通EC2实例可能会最大限度地消耗资源（主要是内存）。此外，AWS SQS对处理进行批处理的想法也将有助于优化流程并有效管理服务器端的超时时间

“这样，您将只为EC2运行时间付费”-这意味着S3和EC2之间没有数据传输成本。“这样，您将只为EC2运行时间付费”-这意味着S3和EC2之间没有数据传输成本。