Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 将文件从s3复制到红移需要的时间太长_Amazon S3_Amazon Redshift - Fatal编程技术网

Amazon s3 将文件从s3复制到红移需要的时间太长

Amazon s3 将文件从s3复制到红移需要的时间太长,amazon-s3,amazon-redshift,Amazon S3,Amazon Redshift,我正在使用AWS将日志文件从S3存储桶复制到红移集群中的一个表中。每个文件大约有100MB,而我还没有对它们进行'gzip'处理。我现在有600个论文档案,而且还在增加。我的集群有2个dc1。大型compute节点和一个leader节点 问题是,复制操作时间太长,至少需要40分钟。加快速度的最佳方法是什么 1) 获取更多节点,或者为节点提供更好的机器 2) 如果我对文件进行gzip处理,它是否真的会影响到复制操作时间的增加 3) 有一些设计模式在这里有所帮助?Rodrigo 以下是答案: 1-在

我正在使用AWS将日志文件从S3存储桶复制到红移集群中的一个表中。每个文件大约有100MB,而我还没有对它们进行
'gzip'
处理。我现在有600个论文档案,而且还在增加。我的集群有2个
dc1。大型
compute节点和一个leader节点

问题是,
复制
操作时间太长,至少需要40分钟。加快速度的最佳方法是什么

1) 获取更多节点,或者为节点提供更好的机器

2) 如果我对文件进行gzip处理,它是否真的会影响到
复制
操作时间的增加

3) 有一些设计模式在这里有所帮助?

Rodrigo

以下是答案:

1-在更改硬件设置之前,可能需要进行一些优化。您必须进行测试,但在确保完成所有优化之后,如果您仍然需要更好的性能,我建议使用更多节点

2-gzip文件可能会提高性能。但我怀疑您还需要先进行其他优化。请参阅红移文档中的此建议:

3--以下是您应该按重要性顺序查看的内容:

  • 分发密钥——您的分发密钥是否提供跨多个片的良好分发?如果您有一个“坏”的分发密钥,这可以解释您看到的问题
  • 编码——确保编码是最佳的。使用“分析压缩”命令
  • 排序键--您是否选择了适合此操作的排序键 桌子拥有一个好的排序键可以对 压缩,这反过来会影响读写时间
  • 真空度——如果您在此表中执行了多个测试,是否在测试之间进行真空度测试。红移不会在删除或更新后删除数据(更新被处理为删除和插入,而不是就地更新)
  • 多个文件--您应该有大量的文件。您已经这样做了,但对于试图将数据加载到红移中的人来说,这通常是一个很好的建议
  • 清单文件——使用清单文件允许Redshift并行化加载
  • 我预计60GB的负载将比您看到的更快,即使在2节点集群中也是如此。检查这6项并让我们知道

    谢谢

    @BigDataKid

    罗德里戈

    以下是答案:

    1-在更改硬件设置之前,可能需要进行一些优化。您必须进行测试,但在确保完成所有优化之后,如果您仍然需要更好的性能,我建议使用更多节点

    2-gzip文件可能会提高性能。但我怀疑您还需要先进行其他优化。请参阅红移文档中的此建议:

    3--以下是您应该按重要性顺序查看的内容:

  • 分发密钥——您的分发密钥是否提供跨多个片的良好分发?如果您有一个“坏”的分发密钥,这可以解释您看到的问题
  • 编码——确保编码是最佳的。使用“分析压缩”命令
  • 排序键--您是否选择了适合此操作的排序键 桌子拥有一个好的排序键可以对 压缩,这反过来会影响读写时间
  • 真空度——如果您在此表中执行了多个测试,是否在测试之间进行真空度测试。红移不会在删除或更新后删除数据(更新被处理为删除和插入,而不是就地更新)
  • 多个文件--您应该有大量的文件。您已经这样做了,但对于试图将数据加载到红移中的人来说,这通常是一个很好的建议
  • 清单文件——使用清单文件允许Redshift并行化加载
  • 我预计60GB的负载将比您看到的更快,即使在2节点集群中也是如此。检查这6项并让我们知道

    谢谢


    @BigDataKid

    使用4个节点和gzip文件需要20分钟。使用4个节点和gzip文件需要20分钟。