Apache spark 执行索引地理空间查询的最低要求_Apache Spark_Geomesa

Apache spark 执行索引地理空间查询的最低要求

apache-spark

Apache spark 执行索引地理空间查询的最低要求,apache-spark,geomesa,Apache Spark,Geomesa,我是地理空间领域的新手，我已经设法将geomesa spark jst添加到项目中，使我能够使用地理空间功能我需要浏览数以百万计的地理编码事件eventRdd，并根据自定义标准查看它们是否在距离路段线串roadSegmentRdd的一定距离内目前，对于每一项活动，我需要检查整个道路分段RDD，看看是否满足标准，这根本不是最佳的如何使用geomesa和索引加快查询速度？所需的最小依赖项是什么？通常，您希望至少将您的点数据摄取到GeoMesa数据存储中，然后您可以基于空间谓词进行查询，以有效地

我是地理空间领域的新手，我已经设法将geomesa spark jst添加到项目中，使我能够使用地理空间功能

我需要浏览数以百万计的地理编码事件eventRdd，并根据自定义标准查看它们是否在距离路段线串roadSegmentRdd的一定距离内

目前，对于每一项活动，我需要检查整个道路分段RDD，看看是否满足标准，这根本不是最佳的

如何使用geomesa和索引加快查询速度？所需的最小依赖项是什么？

通常，您希望至少将您的点数据摄取到GeoMesa数据存储中，然后您可以基于空间谓词进行查询，以有效地筛选出您感兴趣的点数据

GeoMesa有几种不同的数据存储选项可供使用，从完全分布式的数据库（如HBase）到基于轻量级文件系统的解决方案。最佳方案取决于您的性能要求和可用的基础架构。有关于不同数据存储的更多信息，以及Spark特定的详细信息

一旦接收到数据，您可以尝试列出的一种连接方法，或者根据路段RDD的大小，尝试使用一种连接方法。

我使用的是具有HBase支持的EMR。我的RDD没有那么大，500k线串。我需要使用HBase/Accumulo作为存储，还是可以在内存中构建索引？稍后，如果可能的话，我会添加一些永久存储，比如从S3加载的HBase。我找到了这个。这是否需要geomesa spark jst、geomesa spark core和geomesa spark sql？构建索引内存的能力目前与从geomesa数据存储加载数据有关。这可能是可以重构的，但目前最快的解决方案是将路段摄取到S3中，然后使用该链接的功能将数据帧加载到内存中。另外，内存中的索引是alpha功能。希望它会有用，但可能需要一些额外的Spark配置调整。