Amazon s3 普雷斯托和蜂巢
我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。普雷斯托似乎是一个自然的适合(文件是10s GB)。当我在Presto中完成设置时,我尝试使用配置单元连接器创建一个表。我不清楚我是否只需要配置单元元存储来在Presto中保存我的表配置,或者我是否必须首先在那里创建它们Amazon s3 普雷斯托和蜂巢,amazon-s3,presto,Amazon S3,Presto,我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。普雷斯托似乎是一个自然的适合(文件是10s GB)。当我在Presto中完成设置时,我尝试使用配置单元连接器创建一个表。我不清楚我是否只需要配置单元元存储来在Presto中保存我的表配置,或者我是否必须首先在那里创建它们 该文档使您看起来可以使用Presto而不必配置配置单元,而是使用配置单元语法。准确吗?我的经验是AWS S3无法连接。Presto语法类似于Hive语法。对于大多数简单的查询,相同的语法在这两种查询中都起作用。然而,有一
该文档使您看起来可以使用Presto而不必配置配置单元,而是使用配置单元语法。准确吗?我的经验是AWS S3无法连接。Presto语法类似于Hive语法。对于大多数简单的查询,相同的语法在这两种查询中都起作用。然而,有一些关键的区别使得Presto和Hive并不完全相同。例如,在Hive中,您可以使用
横向视图分解
,而在Presto中,您可以使用交叉连接UNNEST
。有许多这样的例子说明了两者在句法上的细微差别 如果没有Hive,就不可能使用vanilla Presto来分析S3上的数据。Presto只提供分布式执行引擎。但是,它缺少关于表的元数据信息。因此,Presto Coordinator需要配置单元来检索表元数据以解析和执行查询
然而,您可以使用AWS Athena(它是Presto管理的)在S3之上运行查询
另一个选项是,最近Presto增加了连接AWS Glue并在S3中的文件顶部检索表元数据的功能。我知道已经有一段时间了,但是如果这个问题仍然悬而未决,您是否考虑过使用Spark?Spark与开箱即用的方法轻松连接,可以查询/处理S3/CSV格式的数据
<我也很好奇:你最终解决了什么问题?旁注:你也可以考虑使用,这是普雷斯托的无服务器实现。然而,目前它只在少数几个地区使用。我很想使用Amazon Athena,但它不符合我的特定用例(医疗保健)。根据我的经验,AWS S3无法连接。-到底是什么问题?如果使用IAM角色授予EC2机器对S3的访问权限,则Presto Hive connector支持S3(至少
s3a://
)。