Amazon dynamodb DynamoDB每小时读写800万条记录并复制到Redshift的成本
请帮我计算一下。这是我们计算价格的方式吗? 我们有一个平均每小时创建800万条记录(2500条记录/秒)的流,我们希望使用aws Lambda将其插入DynamoDB 每个记录的最大大小为450字节。 据我所知,对于小于1KB的内存,Dynamodb需要1个写容量单元。因此,对于每秒2500条记录,我们需要2500个写入容量单位Amazon dynamodb DynamoDB每小时读写800万条记录并复制到Redshift的成本,amazon-dynamodb,amazon-redshift,Amazon Dynamodb,Amazon Redshift,请帮我计算一下。这是我们计算价格的方式吗? 我们有一个平均每小时创建800万条记录(2500条记录/秒)的流,我们希望使用aws Lambda将其插入DynamoDB 每个记录的最大大小为450字节。 据我所知,对于小于1KB的内存,Dynamodb需要1个写容量单元。因此,对于每秒2500条记录,我们需要2500个写入容量单位 数据被实时插入DynamoDB。 出于分析目的,我们也需要相同的数据处于红移状态。所以每15分钟我们需要将Dynamodb表同步到Redshift表。企业只希望在顶部红
数据被实时插入DynamoDB。 出于分析目的,我们也需要相同的数据处于红移状态。所以每15分钟我们需要将Dynamodb表同步到Redshift表。企业只希望在顶部红移集群上进行分析 要在15分钟内使用redshift copy命令将数据从DynamoDB复制到redshift,我需要大约10000个读取容量单位 这样做的费用约为每月2400美元
更多信息 既有建筑 S3=>Lambda=>Redshift:在Lambda出现Redshift时,作业进入队列,而其他作业被延迟之前,这一切都很正常。所以我们向亚马逊技术支持部门询问:他们明确提到,对于实时或近实时注入,红移不是一个好选择。我们使用EMR clusster代替Lambda,创建清单文件(添加多个文件)并进行红移复制-结果仍然令人满意。商业力量现在不想增加集群 提议的架构 S3=>Lambda=>DynamoDB(一旦文件到达)=>每15分钟=>从DynamoDB查询数据并保存到S3=>Redshift 企业的问题是成本是多少 我们每15分钟查询一次Dynamodb数据,记录数为400万。 保存到S3 用那个S3做一个红拷贝 如果我给出的读取单位是10000,那么Dynamodb(450万)的读取能否在7分钟内完成 10000*60(秒)=60000条记录 60,00000*7分钟=420万 我的计算是 7分钟从Dynamo DB读取数据 给S3写3分钟 3分钟进行红移复制 简言之,业务需要在文件到达S3后立即将数据保存在Dynamodb中。 他们可以等待15分钟,以红移方式反映
关于这方面的任何其他建议,您似乎有两个要求:
- 将数据从AmazonS3加载到DynamoDB中
- 将数据从AmazonS3加载到AmazonRedshift
- 使用Lambda函数(可能与DynamoDB使用的函数相同)将所有传入文件的列表整理到amazons3中。您可以将其存储在DynamoDB表中(或您自己选择的其他地方)
- 使用亚马逊CloudWatch事件计划定期(每15分钟)触发AWS Lambda功能,该功能将:
- 创建自上次加载以来接收的所有文件的
- 在红移中运行复制命令
- 将DynamoDB中的那些文件标记为已处理(以便它们不会包含在将来的执行中)
- 这两个过程的分离,使它们更易于维护
- 不需要从DynamoDB读取数据,这将降低读取容量单位成本
- 您可以根据需要将加载频率更改为红移