雅典娜地理空间SQL连接从未完成

雅典娜地理空间SQL连接从未完成,sql,amazon-web-services,geospatial,presto,Sql,Amazon Web Services,Geospatial,Presto,基于的非常基本的地理空间连接每次都会超时 表多边形包含340K个多边形,而点包含5K行,带有纬度/经度对(和ID)。两者都是S3中的单个.csv文件 查询: SELECT poly.geometry, p.id FROM polygons as poly CROSS JOIN points as p WHERE ST_CONTAINS (ST_POLYGON(poly.geometry), ST_POINT(p.lon, p.lat)); 上述SQL查询永远不会在默认的30分钟Athena查询

基于的非常基本的地理空间连接每次都会超时

多边形
包含340K个多边形,而
包含5K行,带有纬度/经度对(和ID)。两者都是S3中的单个.csv文件

查询:

SELECT poly.geometry, p.id
FROM polygons as poly
CROSS JOIN points as p
WHERE ST_CONTAINS (ST_POLYGON(poly.geometry), ST_POINT(p.lon, p.lat));
上述SQL查询永远不会在默认的30分钟Athena查询时间限制内完成

我发现大型ish数据集上的普通Athena查询性能相当好,但我不确定地理空间功能是否能够处理(百万x百万)连接,更不用说(十亿x百万)连接了


我想在回到EMR+Spark解决方案之前我会问一下。

雅典娜服务基于。该版本没有地理空间联接,因此,如果单节点交叉联接+筛选,则您的查询将失败

较新的Presto版本具有优化功能,因此可以以分布式方式执行此类查询


除了返回到EMR,您还可以尝试使用它来轻松启动为AWS预先打包的最佳Presto版本。(注:我为星爆工作)

雅典娜服务基于。该版本没有地理空间联接,因此,如果单节点交叉联接+筛选,则您的查询将失败

较新的Presto版本具有优化功能,因此可以以分布式方式执行此类查询

除了返回到EMR,您还可以尝试使用它来轻松启动为AWS预先打包的最佳Presto版本。(注:我为星爆工作)