Amazon s3 将文件从s3复制到红移需要的时间太长
我正在使用AWS将日志文件从S3存储桶复制到红移集群中的一个表中。每个文件大约有100MB,而我还没有对它们进行Amazon s3 将文件从s3复制到红移需要的时间太长,amazon-s3,amazon-redshift,Amazon S3,Amazon Redshift,我正在使用AWS将日志文件从S3存储桶复制到红移集群中的一个表中。每个文件大约有100MB,而我还没有对它们进行'gzip'处理。我现在有600个论文档案,而且还在增加。我的集群有2个dc1。大型compute节点和一个leader节点 问题是,复制操作时间太长,至少需要40分钟。加快速度的最佳方法是什么 1) 获取更多节点,或者为节点提供更好的机器 2) 如果我对文件进行gzip处理,它是否真的会影响到复制操作时间的增加 3) 有一些设计模式在这里有所帮助?Rodrigo 以下是答案: 1-在
'gzip'
处理。我现在有600个论文档案,而且还在增加。我的集群有2个dc1。大型compute节点和一个leader节点
问题是,复制
操作时间太长,至少需要40分钟。加快速度的最佳方法是什么
1) 获取更多节点,或者为节点提供更好的机器
2) 如果我对文件进行gzip处理,它是否真的会影响到复制
操作时间的增加
3) 有一些设计模式在这里有所帮助?Rodrigo
以下是答案:
1-在更改硬件设置之前,可能需要进行一些优化。您必须进行测试,但在确保完成所有优化之后,如果您仍然需要更好的性能,我建议使用更多节点
2-gzip文件可能会提高性能。但我怀疑您还需要先进行其他优化。请参阅红移文档中的此建议:
3--以下是您应该按重要性顺序查看的内容:
分发密钥——您的分发密钥是否提供跨多个片的良好分发?如果您有一个“坏”的分发密钥,这可以解释您看到的问题
编码——确保编码是最佳的。使用“分析压缩”命令
排序键--您是否选择了适合此操作的排序键
桌子拥有一个好的排序键可以对
压缩,这反过来会影响读写时间
真空度——如果您在此表中执行了多个测试,是否在测试之间进行真空度测试。红移不会在删除或更新后删除数据(更新被处理为删除和插入,而不是就地更新)
多个文件--您应该有大量的文件。您已经这样做了,但对于试图将数据加载到红移中的人来说,这通常是一个很好的建议
清单文件——使用清单文件允许Redshift并行化加载
我预计60GB的负载将比您看到的更快,即使在2节点集群中也是如此。检查这6项并让我们知道
谢谢
@BigDataKid罗德里戈
以下是答案:
1-在更改硬件设置之前,可能需要进行一些优化。您必须进行测试,但在确保完成所有优化之后,如果您仍然需要更好的性能,我建议使用更多节点
2-gzip文件可能会提高性能。但我怀疑您还需要先进行其他优化。请参阅红移文档中的此建议:
3--以下是您应该按重要性顺序查看的内容:
分发密钥——您的分发密钥是否提供跨多个片的良好分发?如果您有一个“坏”的分发密钥,这可以解释您看到的问题
编码——确保编码是最佳的。使用“分析压缩”命令
排序键--您是否选择了适合此操作的排序键
桌子拥有一个好的排序键可以对
压缩,这反过来会影响读写时间
真空度——如果您在此表中执行了多个测试,是否在测试之间进行真空度测试。红移不会在删除或更新后删除数据(更新被处理为删除和插入,而不是就地更新)
多个文件--您应该有大量的文件。您已经这样做了,但对于试图将数据加载到红移中的人来说,这通常是一个很好的建议
清单文件——使用清单文件允许Redshift并行化加载
我预计60GB的负载将比您看到的更快,即使在2节点集群中也是如此。检查这6项并让我们知道
谢谢
@BigDataKid使用4个节点和gzip文件需要20分钟。使用4个节点和gzip文件需要20分钟。