Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 普雷斯托和蜂巢_Amazon S3_Presto - Fatal编程技术网

Amazon s3 普雷斯托和蜂巢

Amazon s3 普雷斯托和蜂巢,amazon-s3,presto,Amazon S3,Presto,我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。普雷斯托似乎是一个自然的适合(文件是10s GB)。当我在Presto中完成设置时,我尝试使用配置单元连接器创建一个表。我不清楚我是否只需要配置单元元存储来在Presto中保存我的表配置,或者我是否必须首先在那里创建它们 该文档使您看起来可以使用Presto而不必配置配置单元,而是使用配置单元语法。准确吗?我的经验是AWS S3无法连接。Presto语法类似于Hive语法。对于大多数简单的查询,相同的语法在这两种查询中都起作用。然而,有一

我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。普雷斯托似乎是一个自然的适合(文件是10s GB)。当我在Presto中完成设置时,我尝试使用配置单元连接器创建一个表。我不清楚我是否只需要配置单元元存储来在Presto中保存我的表配置,或者我是否必须首先在那里创建它们


该文档使您看起来可以使用Presto而不必配置配置单元,而是使用配置单元语法。准确吗?我的经验是AWS S3无法连接。

Presto语法类似于Hive语法。对于大多数简单的查询,相同的语法在这两种查询中都起作用。然而,有一些关键的区别使得Presto和Hive并不完全相同。例如,在Hive中,您可以使用
横向视图分解
,而在Presto中,您可以使用
交叉连接UNNEST
。有许多这样的例子说明了两者在句法上的细微差别

如果没有Hive,就不可能使用vanilla Presto来分析S3上的数据。Presto只提供分布式执行引擎。但是,它缺少关于表的元数据信息。因此,Presto Coordinator需要配置单元来检索表元数据以解析和执行查询

然而,您可以使用AWS Athena(它是Presto管理的)在S3之上运行查询


另一个选项是,最近Presto增加了连接AWS Glue并在S3中的文件顶部检索表元数据的功能。

我知道已经有一段时间了,但是如果这个问题仍然悬而未决,您是否考虑过使用Spark?Spark与开箱即用的方法轻松连接,可以查询/处理S3/CSV格式的数据


<我也很好奇:你最终解决了什么问题?

旁注:你也可以考虑使用,这是普雷斯托的无服务器实现。然而,目前它只在少数几个地区使用。我很想使用Amazon Athena,但它不符合我的特定用例(医疗保健)。根据我的经验,AWS S3无法连接。-到底是什么问题?如果使用IAM角色授予EC2机器对S3的访问权限,则Presto Hive connector支持S3(至少
s3a://
)。