Amazon web services 将文件上载到S3,然后在EMR中处理,最后传输到红移

Amazon web services 将文件上载到S3,然后在EMR中处理,最后传输到红移,amazon-web-services,amazon-s3,aws-lambda,amazon-redshift,amazon-emr,Amazon Web Services,Amazon S3,Aws Lambda,Amazon Redshift,Amazon Emr,我是这个论坛和技术的新手,正在寻求您的建议。我正在进行POC,以下是我的要求。你能告诉我怎样才能达到这个结果吗 将数据从NAS复制到S3 使用S3作为EMR作业中的源,目标为S3/红移 任何链接,pdf也会很有帮助 谢谢, Pardeep这里有很多你要问的问题,关于你的用例没有太多的信息可供参考,所以我将在我的回答中非常笼统,希望它至少为你指明了正确的方向 您可以使用Lambda将数据从NAS复制到S3。假设您的NAS是本地的,并且假设您在VPC中配置了VPN,甚至配置了直连,那么您可以使用支持

我是这个论坛和技术的新手,正在寻求您的建议。我正在进行POC,以下是我的要求。你能告诉我怎样才能达到这个结果吗

  • 将数据从NAS复制到S3
  • 使用S3作为EMR作业中的源,目标为S3/红移
  • 任何链接,pdf也会很有帮助

    谢谢,
    Pardeep

    这里有很多你要问的问题,关于你的用例没有太多的信息可供参考,所以我将在我的回答中非常笼统,希望它至少为你指明了正确的方向

  • 您可以使用Lambda将数据从NAS复制到S3。假设您的NAS是本地的,并且假设您在VPC中配置了VPN,甚至配置了直连,那么您可以使用支持VPC的Lambda函数从NAS本地读取数据并写入S3 如果您的NAS在EC2上运行,上述内容将保持不变,只是不需要VPN或直接连接

  • 你想从Lambda开始做电子病历吗?您可以使用S3作为EMR的源,然后从Lambda内部或通过其他方式输出到S3 如果你能提供更多关于用例的信息,我们可能会给你一个更好的答案

    将数据从NAS复制到S3

    这实际上取决于数据量和运行复制作业的频率。如果数据是GBs格式的,则可以在连接NFS的计算机上安装AWS CLI。AWS CLI命令(如CP)可以是多线程的,并且可以轻松地将数据集复制到S3。您还可以启用S3传输加速来加快速度。让AWS直接连接到您的公司网络也可以加快从on premis到AWS的任何传输

    如果数据在TBS中(可能分布在多个卷上),那么您可能需要考虑使用基于AWS雪球、AWSImportExport或AWS雪崩等物理传输工具的用例。

    使用S3作为EMR作业中的源,目标为S3/红移

    同样,由于电子病历有很多应用,因此有很多选择。Redshift支持将命令复制/卸载到S3,任何应用程序都可以使用这些命令。如果您想在EMR上使用SPARK,那么安装databricksSPARK redshift驱动程序是一个可行的选择


    谢谢@alanwill,以下是其他详细信息。1.是的,我的第一个使用案例是使用凭据从内部部署的NAS中提取数据,然后从共享的第三方开放位置提取数据。2.我们也使用Lambda,请让我们知道是否有任何其他替代方案踢EMR工作。有没有办法通过EMR(Spark SQL)将数据直接写入Redshit。或者我们需要将结果复制到S3,然后通过Lambda加载到Redshift。是的,您可以从EMR直接将数据写入Redshift,下面是如何操作的文档链接。您还可以在Lambda中自动化整个管道来创建和执行作业,如果您使用的是Python,那么您可以使用boto3 SDK