Amazon dynamodb 需要一些关于大数据ETL作业成本效益设计的建议吗_Amazon Dynamodb_Bigdata_Amazon Emr

Amazon dynamodb 需要一些关于大数据ETL作业成本效益设计的建议吗

amazon-dynamodb

Amazon dynamodb 需要一些关于大数据ETL作业成本效益设计的建议吗,amazon-dynamodb,bigdata,amazon-emr,Amazon Dynamodb,Bigdata,Amazon Emr,我需要一些关于设计每小时/每天处理的大数据ETL作业的建议。我需要一个定期运行超过1.8TB元数据的系统，以便将数据转换为计费报告，供下游使用要求： Primary DataSource: DynamoDB has the core metadata, 1.8TB and growing unbounded, metadata would be updated all the time. Latency: Need to finish the job within 12 hours. Av

我需要一些关于设计每小时/每天处理的大数据ETL作业的建议。我需要一个定期运行超过1.8TB元数据的系统，以便将数据转换为计费报告，供下游使用

要求：

Primary DataSource: DynamoDB has the core metadata, 1.8TB and growing unbounded, metadata would be updated all the time.

Latency: Need to finish the job within 12 hours.

Availability: Critical business logic is running on the DDB tables, I cannot afford to impact business when trying to run the ETL job to produce billing reports.

我正在研究AWS EMR，但我找不到一种经济高效的方法将DDB数据转储到EMR中，即使我每天都转储，每次都扫描整个表格，最终花费60000美元：

1 RCU would be 4KB:
1.8TB * 1024^3 / 4 = 483183820.8 * (0.00013/RCU) = $62813

考虑到数据的大小，我最初的想法是每天将数据作为快照转储，并计算前一天的每小时业务报告。但尽管如此，每天做一次垃圾处理每月将达到200万美元

我能得到一些关于这项工作成本效益的建议吗？

为什么需要在EMR上转储数据？您只需要在EMR上运行您的计算，您的源代码仍然可以是dynamodb

对于第一次迭代，只需读取dynamodb中的所有数据并创建报告。从下一次迭代开始，只需阅读dynamodb中的增量并更新您的报告