Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 我们可以在AWS EFS上运行ETL作业吗_Amazon S3_Amazon Ec2_Etl_Amazon Efs - Fatal编程技术网

Amazon s3 我们可以在AWS EFS上运行ETL作业吗

Amazon s3 我们可以在AWS EFS上运行ETL作业吗,amazon-s3,amazon-ec2,etl,amazon-efs,Amazon S3,Amazon Ec2,Etl,Amazon Efs,我想知道我们是否可以在EFS装载文件上运行ETL作业。。 如果是,怎么做?它是使用Hive还是其他服务? 我们的目标是将一个装载点中的所有文件减少为一个文件…并将该文件存储在s3中,以便更好地处理EFS本身并不包含特定的数据仓库产品。对于数据仓库和ETL,您可以选择要在AWS环境中运行的内容 关于你的问题: 如果我理解正确,您希望将EFS挂载中当前的所有文件连接或以某种方式组合到一个文件中,并将其存储在S3中 您没有提及您拥有的数据类型或您想要合并的文件类型。这对你如何做到这一点产生了巨大的影响

我想知道我们是否可以在EFS装载文件上运行ETL作业。。 如果是,怎么做?它是使用Hive还是其他服务?
我们的目标是将一个装载点中的所有文件减少为一个文件…并将该文件存储在s3中,以便更好地处理

EFS本身并不包含特定的数据仓库产品。对于数据仓库和ETL,您可以选择要在AWS环境中运行的内容

关于你的问题: 如果我理解正确,您希望将EFS挂载中当前的所有文件连接或以某种方式组合到一个文件中,并将其存储在S3中

您没有提及您拥有的数据类型或您想要合并的文件类型。这对你如何做到这一点产生了巨大的影响。因此,我将不得不提出一般性建议。如果您有不同类型的数据、来自不同数据库的SQL表、文档、非SQL数据;然后您需要确定如何组合这些数据。为此,您将看到一个可以容纳原始数据的数据集成解决方案

亚马逊有一些不同的产品,如红移、雅典娜、雪花和他们的ETL解决方案胶水,可以帮助这一过程。添加产品取决于公司的需要和预算

因此,更灵活的数据集成方法是使用ELT(提取、加载、转换)而不是ETL。基本上,您应该在S3实例上创建一个适当的文件。然后,您将一次提取EFS上的每个文件,并将它们加载到S3文件中。然后,当您查询S3文件中的数据时,您将在查看查询结果之前执行所需的任何转换。下面有一篇文章更详细地解释了这些差异:

如果您想调查选项,有一些供应商支持ELT流程,如Talend、Hadoop/Hive/Spark、Terradata和Informatica