Apache spark 执行索引地理空间查询的最低要求

Apache spark 执行索引地理空间查询的最低要求,apache-spark,geomesa,Apache Spark,Geomesa,我是地理空间领域的新手,我已经设法将geomesa spark jst添加到项目中,使我能够使用地理空间功能 我需要浏览数以百万计的地理编码事件eventRdd,并根据自定义标准查看它们是否在距离路段线串roadSegmentRdd的一定距离内 目前,对于每一项活动,我需要检查整个道路分段RDD,看看是否满足标准,这根本不是最佳的 如何使用geomesa和索引加快查询速度?所需的最小依赖项是什么?通常,您希望至少将您的点数据摄取到GeoMesa数据存储中,然后您可以基于空间谓词进行查询,以有效地

我是地理空间领域的新手,我已经设法将geomesa spark jst添加到项目中,使我能够使用地理空间功能

我需要浏览数以百万计的地理编码事件eventRdd,并根据自定义标准查看它们是否在距离路段线串roadSegmentRdd的一定距离内

目前,对于每一项活动,我需要检查整个道路分段RDD,看看是否满足标准,这根本不是最佳的


如何使用geomesa和索引加快查询速度?所需的最小依赖项是什么?

通常,您希望至少将您的点数据摄取到GeoMesa数据存储中,然后您可以基于空间谓词进行查询,以有效地筛选出您感兴趣的点数据

GeoMesa有几种不同的数据存储选项可供使用,从完全分布式的数据库(如HBase)到基于轻量级文件系统的解决方案。最佳方案取决于您的性能要求和可用的基础架构。有关于不同数据存储的更多信息,以及Spark特定的详细信息


一旦接收到数据,您可以尝试列出的一种连接方法,或者根据路段RDD的大小,尝试使用一种连接方法。

我使用的是具有HBase支持的EMR。我的RDD没有那么大,500k线串。我需要使用HBase/Accumulo作为存储,还是可以在内存中构建索引?稍后,如果可能的话,我会添加一些永久存储,比如从S3加载的HBase。我找到了这个。这是否需要geomesa spark jst、geomesa spark core和geomesa spark sql?构建索引内存的能力目前与从geomesa数据存储加载数据有关。这可能是可以重构的,但目前最快的解决方案是将路段摄取到S3中,然后使用该链接的功能将数据帧加载到内存中。另外,内存中的索引是alpha功能。希望它会有用,但可能需要一些额外的Spark配置调整。