Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cassandra 卡桑德拉二级指数v。卢塞恩_Cassandra_Lucene - Fatal编程技术网

Cassandra 卡桑德拉二级指数v。卢塞恩

Cassandra 卡桑德拉二级指数v。卢塞恩,cassandra,lucene,Cassandra,Lucene,我知道Cassandra是一个NoSQL数据库,用许多索引修补它不是一条路,但在这里,我正在为我的分析集群寻找解决方案,而不是生产/实时集群 因此,我认为添加索引以减少Spark过滤的数据量是有意义的 本地Cassandra二级指数与Lucene指数相比如何 Cassandra无法单独使用许多功能,但是您可以同时使用这两种功能做些什么呢 只使用Lucene是否更好/有意义 我看到的另一个优点是,我只能在我的分析集群上安装Lucene,而不会使实时集群过载(因此提高了这方面的写入性能)。不用担心L

我知道Cassandra是一个NoSQL数据库,用许多索引修补它不是一条路,但在这里,我正在为我的分析集群寻找解决方案,而不是生产/实时集群

因此,我认为添加索引以减少Spark过滤的数据量是有意义的

本地Cassandra二级指数与Lucene指数相比如何

Cassandra无法单独使用许多功能,但是您可以同时使用这两种功能做些什么呢

只使用Lucene是否更好/有意义


我看到的另一个优点是,我只能在我的分析集群上安装Lucene,而不会使实时集群过载(因此提高了这方面的写入性能)。

不用担心Lucene集成

自从Cassandra 3.4以来,我们有了一个新的二级索引SASI,它提供全文搜索,性能非常好


阅读此文:

您的分析用例到底是什么?为什么您认为需要NoSQL作为Spark的存储层?Spark会对该存储执行任何写入操作吗?您是否需要数据搜索功能(Lucene)?简而言之,请提供更多信息……Spark可能会进行一些写入,但这不是最常见的用例。我不需要“搜索”功能,而是
where
谓词功能。这看起来确实是一个完美的解决方案。有没有一个比较Lucene v。Sasi在什么地方?还没有比较,但是对于本地读取路径,SASI的性能要高得多,因为索引结构提供了直接从SSTable读取数据的偏移量,因此不需要通过正常的Cassandra读取路径来获取源数据。如果您希望对只包含辅助索引的查询进行排序,那么情况会怎样呢。我认为使用SASI无法实现这一点