Cassandra 卡桑德拉二级指数v。卢塞恩
我知道Cassandra是一个NoSQL数据库,用许多索引修补它不是一条路,但在这里,我正在为我的分析集群寻找解决方案,而不是生产/实时集群 因此,我认为添加索引以减少Spark过滤的数据量是有意义的 本地Cassandra二级指数与Lucene指数相比如何 Cassandra无法单独使用许多功能,但是您可以同时使用这两种功能做些什么呢 只使用Lucene是否更好/有意义Cassandra 卡桑德拉二级指数v。卢塞恩,cassandra,lucene,Cassandra,Lucene,我知道Cassandra是一个NoSQL数据库,用许多索引修补它不是一条路,但在这里,我正在为我的分析集群寻找解决方案,而不是生产/实时集群 因此,我认为添加索引以减少Spark过滤的数据量是有意义的 本地Cassandra二级指数与Lucene指数相比如何 Cassandra无法单独使用许多功能,但是您可以同时使用这两种功能做些什么呢 只使用Lucene是否更好/有意义 我看到的另一个优点是,我只能在我的分析集群上安装Lucene,而不会使实时集群过载(因此提高了这方面的写入性能)。不用担心L
我看到的另一个优点是,我只能在我的分析集群上安装Lucene,而不会使实时集群过载(因此提高了这方面的写入性能)。不用担心Lucene集成 自从Cassandra 3.4以来,我们有了一个新的二级索引SASI,它提供全文搜索,性能非常好
阅读此文:您的分析用例到底是什么?为什么您认为需要NoSQL作为Spark的存储层?Spark会对该存储执行任何写入操作吗?您是否需要数据搜索功能(Lucene)?简而言之,请提供更多信息……Spark可能会进行一些写入,但这不是最常见的用例。我不需要“搜索”功能,而是
where
谓词功能。这看起来确实是一个完美的解决方案。有没有一个比较Lucene v。Sasi在什么地方?还没有比较,但是对于本地读取路径,SASI的性能要高得多,因为索引结构提供了直接从SSTable读取数据的偏移量,因此不需要通过正常的Cassandra读取路径来获取源数据。如果您希望对只包含辅助索引的查询进行排序,那么情况会怎样呢。我认为使用SASI无法实现这一点