Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Excel AWS数据湖摄取_Excel_Amazon Web Services_Amazon S3_Amazon Athena_Data Lake - Fatal编程技术网

Excel AWS数据湖摄取

Excel AWS数据湖摄取,excel,amazon-web-services,amazon-s3,amazon-athena,data-lake,Excel,Amazon Web Services,Amazon S3,Amazon Athena,Data Lake,您是否需要使用glue吸收excel和其他专有格式,或者允许glue在s3存储桶中工作,以便在数据池中使用这些数据格式 我已经阅读了“”文档,对于如何将数据导入湖中,我感到有些抓狂。我有一个数据提供者,在他们的系统中以excel和access文件的形式存储大量数据 根据流程,他们会将数据上传到submission s3 bucket中,这将启动一系列操作,但没有将数据转换为可与其他工具一起使用的格式的etl 使用这些文件是否需要在桶中提交的数据上使用胶水,或者是否有其他方法将这些数据提供给其他工

您是否需要使用glue吸收excel和其他专有格式,或者允许glue在s3存储桶中工作,以便在数据池中使用这些数据格式

我已经阅读了“”文档,对于如何将数据导入湖中,我感到有些抓狂。我有一个数据提供者,在他们的系统中以excel和access文件的形式存储大量数据

根据流程,他们会将数据上传到submission s3 bucket中,这将启动一系列操作,但没有将数据转换为可与其他工具一起使用的格式的etl

使用这些文件是否需要在桶中提交的数据上使用胶水,或者是否有其他方法将这些数据提供给其他工具,如Athena和redshift spectrum

谢谢你对这个话题的解释


-Guido

我不认为它可以将excel数据直接带到数据湖。在加载到Data Lake之前,您可能需要将其转换为CSV/TSV/Json或其他格式

红移光谱支持的格式:

--再说一次,我现在还没有看到Excel

雅典娜支持的文件格式:

--我不认为这里也不支持Excel

您需要将文件上传到S3以使用Athena或红移频谱,甚至红移存储本身

将文件上载到S3:

如果你有更大的文件,你需要使用S3多部分上传来更快的上传。如果你想要更快的速度,你需要使用S3加速器来上传你的文件

用雅典娜查询大数据:

您可以使用Athena从S3位置创建外部表。创建外部表后,使用Athena Sql引用查询数据

用红移光谱查询大数据:

与Athena类似,您可以使用红移创建外部表。开始查询这些表并在红移时获得结果

Redshift有很多商业工具,我使用SQL Workbench。它是由AWS支持的免费开源和坚如磐石的

SQL工作台:

将工作台连接到Redshift:

将数据复制到红移:

另外,如果您想将数据存储带到Redshift,可以使用copy命令从S3提取数据,并将其加载到Redshift

复制命令示例:

红移群集大小和节点数:

在创建红移群集之前,请检查所需的大小和节点数。并行运行查询的节点数越多。更重要的一个因素是数据的分布情况。(分发密钥和排序密钥)

我在红移方面有很好的经验,达到这个速度可能需要一些时间

希望能有帮助