雅典娜地理空间SQL连接从未完成_Sql_Amazon Web Services_Geospatial_Presto

雅典娜地理空间SQL连接从未完成

sql amazon-web-services

雅典娜地理空间SQL连接从未完成,sql,amazon-web-services,geospatial,presto,Sql,Amazon Web Services,Geospatial,Presto,基于的非常基本的地理空间连接每次都会超时表多边形包含340K个多边形，而点包含5K行，带有纬度/经度对（和ID）。两者都是S3中的单个.csv文件查询： SELECT poly.geometry, p.id FROM polygons as poly CROSS JOIN points as p WHERE ST_CONTAINS (ST_POLYGON(poly.geometry), ST_POINT(p.lon, p.lat)); 上述SQL查询永远不会在默认的30分钟Athena查询

基于的非常基本的地理空间连接每次都会超时

表

多边形

包含340K个多边形，而

点

包含5K行，带有纬度/经度对（和ID）。两者都是S3中的单个.csv文件

查询：

SELECT poly.geometry, p.id
FROM polygons as poly
CROSS JOIN points as p
WHERE ST_CONTAINS (ST_POLYGON(poly.geometry), ST_POINT(p.lon, p.lat));

上述SQL查询永远不会在默认的30分钟Athena查询时间限制内完成

我发现大型ish数据集上的普通Athena查询性能相当好，但我不确定地理空间功能是否能够处理（百万x百万）连接，更不用说（十亿x百万）连接了

我想在回到EMR+Spark解决方案之前我会问一下。

雅典娜服务基于。该版本没有地理空间联接，因此，如果单节点交叉联接+筛选，则您的查询将失败

较新的Presto版本具有优化功能，因此可以以分布式方式执行此类查询

除了返回到EMR，您还可以尝试使用它来轻松启动为AWS预先打包的最佳Presto版本。（注：我为星爆工作）

雅典娜服务基于。该版本没有地理空间联接，因此，如果单节点交叉联接+筛选，则您的查询将失败

较新的Presto版本具有优化功能，因此可以以分布式方式执行此类查询

除了返回到EMR，您还可以尝试使用它来轻松启动为AWS预先打包的最佳Presto版本。（注：我为星爆工作）