Cassandra 卡桑德拉二级指数v。卢塞恩_Cassandra_Lucene

Cassandra 卡桑德拉二级指数v。卢塞恩

cassandra lucene

Cassandra 卡桑德拉二级指数v。卢塞恩,cassandra,lucene,Cassandra,Lucene,我知道Cassandra是一个NoSQL数据库，用许多索引修补它不是一条路，但在这里，我正在为我的分析集群寻找解决方案，而不是生产/实时集群因此，我认为添加索引以减少Spark过滤的数据量是有意义的本地Cassandra二级指数与Lucene指数相比如何 Cassandra无法单独使用许多功能，但是您可以同时使用这两种功能做些什么呢只使用Lucene是否更好/有意义我看到的另一个优点是，我只能在我的分析集群上安装Lucene，而不会使实时集群过载（因此提高了这方面的写入性能）。不用担心L

我知道Cassandra是一个NoSQL数据库，用许多索引修补它不是一条路，但在这里，我正在为我的分析集群寻找解决方案，而不是生产/实时集群

因此，我认为添加索引以减少Spark过滤的数据量是有意义的

本地Cassandra二级指数与Lucene指数相比如何

Cassandra无法单独使用许多功能，但是您可以同时使用这两种功能做些什么呢

只使用Lucene是否更好/有意义

我看到的另一个优点是，我只能在我的分析集群上安装Lucene，而不会使实时集群过载（因此提高了这方面的写入性能）。

不用担心Lucene集成

自从Cassandra 3.4以来，我们有了一个新的二级索引SASI，它提供全文搜索，性能非常好

阅读此文：

您的分析用例到底是什么？为什么您认为需要NoSQL作为Spark的存储层？Spark会对该存储执行任何写入操作吗？您是否需要数据搜索功能（Lucene）？简而言之，请提供更多信息……Spark可能会进行一些写入，但这不是最常见的用例。我不需要“搜索”功能，而是

where

谓词功能。这看起来确实是一个完美的解决方案。有没有一个比较Lucene v。Sasi在什么地方？还没有比较，但是对于本地读取路径，SASI的性能要高得多，因为索引结构提供了直接从SSTable读取数据的偏移量，因此不需要通过正常的Cassandra读取路径来获取源数据。如果您希望对只包含辅助索引的查询进行排序，那么情况会怎样呢。我认为使用SASI无法实现这一点