Excel AWS数据湖摄取_Excel_Amazon Web Services_Amazon S3_Amazon Athena_Data Lake

Excel AWS数据湖摄取

excel amazon-web-services amazon-s3

Excel AWS数据湖摄取,excel,amazon-web-services,amazon-s3,amazon-athena,data-lake,Excel,Amazon Web Services,Amazon S3,Amazon Athena,Data Lake,您是否需要使用glue吸收excel和其他专有格式，或者允许glue在s3存储桶中工作，以便在数据池中使用这些数据格式我已经阅读了“”文档，对于如何将数据导入湖中，我感到有些抓狂。我有一个数据提供者，在他们的系统中以excel和access文件的形式存储大量数据根据流程，他们会将数据上传到submission s3 bucket中，这将启动一系列操作，但没有将数据转换为可与其他工具一起使用的格式的etl 使用这些文件是否需要在桶中提交的数据上使用胶水，或者是否有其他方法将这些数据提供给其他工

您是否需要使用glue吸收excel和其他专有格式，或者允许glue在s3存储桶中工作，以便在数据池中使用这些数据格式

我已经阅读了“”文档，对于如何将数据导入湖中，我感到有些抓狂。我有一个数据提供者，在他们的系统中以excel和access文件的形式存储大量数据

根据流程，他们会将数据上传到submission s3 bucket中，这将启动一系列操作，但没有将数据转换为可与其他工具一起使用的格式的etl

使用这些文件是否需要在桶中提交的数据上使用胶水，或者是否有其他方法将这些数据提供给其他工具，如Athena和redshift spectrum

谢谢你对这个话题的解释

-Guido

我不认为它可以将excel数据直接带到数据湖。在加载到Data Lake之前，您可能需要将其转换为CSV/TSV/Json或其他格式

红移光谱支持的格式：

--再说一次，我现在还没有看到Excel

雅典娜支持的文件格式：

--我不认为这里也不支持Excel

您需要将文件上传到S3以使用Athena或红移频谱，甚至红移存储本身

将文件上载到S3:

如果你有更大的文件，你需要使用S3多部分上传来更快的上传。如果你想要更快的速度，你需要使用S3加速器来上传你的文件

用雅典娜查询大数据：

您可以使用Athena从S3位置创建外部表。创建外部表后，使用Athena Sql引用查询数据

用红移光谱查询大数据：

与Athena类似，您可以使用红移创建外部表。开始查询这些表并在红移时获得结果

Redshift有很多商业工具，我使用SQL Workbench。它是由AWS支持的免费开源和坚如磐石的

SQL工作台：

将工作台连接到Redshift：

将数据复制到红移：

另外，如果您想将数据存储带到Redshift，可以使用copy命令从S3提取数据，并将其加载到Redshift

复制命令示例：

红移群集大小和节点数：

在创建红移群集之前，请检查所需的大小和节点数。并行运行查询的节点数越多。更重要的一个因素是数据的分布情况。（分发密钥和排序密钥）

我在红移方面有很好的经验，达到这个速度可能需要一些时间

希望能有帮助