Amazon dynamodb 需要一些关于大数据ETL作业成本效益设计的建议吗

Amazon dynamodb 需要一些关于大数据ETL作业成本效益设计的建议吗,amazon-dynamodb,bigdata,amazon-emr,Amazon Dynamodb,Bigdata,Amazon Emr,我需要一些关于设计每小时/每天处理的大数据ETL作业的建议。我需要一个定期运行超过1.8TB元数据的系统,以便将数据转换为计费报告,供下游使用 要求: Primary DataSource: DynamoDB has the core metadata, 1.8TB and growing unbounded, metadata would be updated all the time. Latency: Need to finish the job within 12 hours. Av

我需要一些关于设计每小时/每天处理的大数据ETL作业的建议。我需要一个定期运行超过1.8TB元数据的系统,以便将数据转换为计费报告,供下游使用

要求:

Primary DataSource: DynamoDB has the core metadata, 1.8TB and growing unbounded, metadata would be updated all the time.

Latency: Need to finish the job within 12 hours.

Availability: Critical business logic is running on the DDB tables, I cannot afford to impact business when trying to run the ETL job to produce billing reports.
我正在研究AWS EMR,但我找不到一种经济高效的方法将DDB数据转储到EMR中,即使我每天都转储,每次都扫描整个表格,最终花费60000美元:

1 RCU would be 4KB:
1.8TB * 1024^3 / 4 = 483183820.8 * (0.00013/RCU) = $62813
考虑到数据的大小,我最初的想法是每天将数据作为快照转储,并计算前一天的每小时业务报告。但尽管如此,每天做一次垃圾处理每月将达到200万美元


我能得到一些关于这项工作成本效益的建议吗?

为什么需要在EMR上转储数据?您只需要在EMR上运行您的计算,您的源代码仍然可以是dynamodb

对于第一次迭代,只需读取dynamodb中的所有数据并创建报告。从下一次迭代开始,只需阅读dynamodb中的增量并更新您的报告