Amazon s3 普雷斯托和蜂巢_Amazon S3_Presto

Amazon s3 普雷斯托和蜂巢

amazon-s3

Amazon s3 普雷斯托和蜂巢,amazon-s3,presto,Amazon S3,Presto,我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。普雷斯托似乎是一个自然的适合（文件是10s GB）。当我在Presto中完成设置时，我尝试使用配置单元连接器创建一个表。我不清楚我是否只需要配置单元元存储来在Presto中保存我的表配置，或者我是否必须首先在那里创建它们该文档使您看起来可以使用Presto而不必配置配置单元，而是使用配置单元语法。准确吗？我的经验是AWS S3无法连接。Presto语法类似于Hive语法。对于大多数简单的查询，相同的语法在这两种查询中都起作用。然而，有一

我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。普雷斯托似乎是一个自然的适合（文件是10s GB）。当我在Presto中完成设置时，我尝试使用配置单元连接器创建一个表。我不清楚我是否只需要配置单元元存储来在Presto中保存我的表配置，或者我是否必须首先在那里创建它们

该文档使您看起来可以使用Presto而不必配置配置单元，而是使用配置单元语法。准确吗？我的经验是AWS S3无法连接。

Presto语法类似于Hive语法。对于大多数简单的查询，相同的语法在这两种查询中都起作用。然而，有一些关键的区别使得Presto和Hive并不完全相同。例如，在Hive中，您可以使用

横向视图分解

，而在Presto中，您可以使用

交叉连接UNNEST

。有许多这样的例子说明了两者在句法上的细微差别

如果没有Hive，就不可能使用vanilla Presto来分析S3上的数据。Presto只提供分布式执行引擎。但是，它缺少关于表的元数据信息。因此，Presto Coordinator需要配置单元来检索表元数据以解析和执行查询

然而，您可以使用AWS Athena（它是Presto管理的）在S3之上运行查询

另一个选项是，最近Presto增加了连接AWS Glue并在S3中的文件顶部检索表元数据的功能。

我知道已经有一段时间了，但是如果这个问题仍然悬而未决，您是否考虑过使用Spark？Spark与开箱即用的方法轻松连接，可以查询/处理S3/CSV格式的数据

<我也很好奇：你最终解决了什么问题？

旁注：你也可以考虑使用，这是普雷斯托的无服务器实现。然而，目前它只在少数几个地区使用。我很想使用Amazon Athena，但它不符合我的特定用例（医疗保健）。根据我的经验，AWS S3无法连接。-到底是什么问题？如果使用IAM角色授予EC2机器对S3的访问权限，则Presto Hive connector支持S3（至少

s3a://

）。