Excel AWS数据湖摄取
您是否需要使用glue吸收excel和其他专有格式,或者允许glue在s3存储桶中工作,以便在数据池中使用这些数据格式 我已经阅读了“”文档,对于如何将数据导入湖中,我感到有些抓狂。我有一个数据提供者,在他们的系统中以excel和access文件的形式存储大量数据 根据流程,他们会将数据上传到submission s3 bucket中,这将启动一系列操作,但没有将数据转换为可与其他工具一起使用的格式的etl 使用这些文件是否需要在桶中提交的数据上使用胶水,或者是否有其他方法将这些数据提供给其他工具,如Athena和redshift spectrum 谢谢你对这个话题的解释Excel AWS数据湖摄取,excel,amazon-web-services,amazon-s3,amazon-athena,data-lake,Excel,Amazon Web Services,Amazon S3,Amazon Athena,Data Lake,您是否需要使用glue吸收excel和其他专有格式,或者允许glue在s3存储桶中工作,以便在数据池中使用这些数据格式 我已经阅读了“”文档,对于如何将数据导入湖中,我感到有些抓狂。我有一个数据提供者,在他们的系统中以excel和access文件的形式存储大量数据 根据流程,他们会将数据上传到submission s3 bucket中,这将启动一系列操作,但没有将数据转换为可与其他工具一起使用的格式的etl 使用这些文件是否需要在桶中提交的数据上使用胶水,或者是否有其他方法将这些数据提供给其他工
-Guido我不认为它可以将excel数据直接带到数据湖。在加载到Data Lake之前,您可能需要将其转换为CSV/TSV/Json或其他格式 红移光谱支持的格式: --再说一次,我现在还没有看到Excel 雅典娜支持的文件格式: --我不认为这里也不支持Excel 您需要将文件上传到S3以使用Athena或红移频谱,甚至红移存储本身 将文件上载到S3: 如果你有更大的文件,你需要使用S3多部分上传来更快的上传。如果你想要更快的速度,你需要使用S3加速器来上传你的文件 用雅典娜查询大数据: 您可以使用Athena从S3位置创建外部表。创建外部表后,使用Athena Sql引用查询数据 用红移光谱查询大数据: 与Athena类似,您可以使用红移创建外部表。开始查询这些表并在红移时获得结果 Redshift有很多商业工具,我使用SQL Workbench。它是由AWS支持的免费开源和坚如磐石的 SQL工作台: 将工作台连接到Redshift: 将数据复制到红移: 另外,如果您想将数据存储带到Redshift,可以使用copy命令从S3提取数据,并将其加载到Redshift 复制命令示例: 红移群集大小和节点数: 在创建红移群集之前,请检查所需的大小和节点数。并行运行查询的节点数越多。更重要的一个因素是数据的分布情况。(分发密钥和排序密钥) 我在红移方面有很好的经验,达到这个速度可能需要一些时间 希望能有帮助