HBase vs Hyptertable vs Lucene

HBase vs Hyptertable vs Lucene,hbase,hypertable,Hbase,Hypertable,我正在使用lucene的搜索系统。默认情况下,它不是分布式的,所以我正在考虑转向HBase或Hadoop之类的东西 像HBase或Hypertable这样的解决方案有内置搜索功能吗?或者我需要在它们上面实现Lucene吗?Lucene与像HBase或Hypertable这样的BigTable克隆非常不同。如果您只是在寻找分布式Lucene,那么您应该看看诸如Elastic Search或Katta之类的项目 Solr/Lucene还能够在集群上运行,但分区不是自动的。您必须手动创建碎片和副本,以

我正在使用lucene的搜索系统。默认情况下,它不是分布式的,所以我正在考虑转向HBase或Hadoop之类的东西


像HBase或Hypertable这样的解决方案有内置搜索功能吗?或者我需要在它们上面实现Lucene吗?

Lucene与像HBase或Hypertable这样的BigTable克隆非常不同。如果您只是在寻找分布式Lucene,那么您应该看看诸如Elastic Search或Katta之类的项目

Solr/Lucene还能够在集群上运行,但分区不是自动的。您必须手动创建碎片和副本,以匹配您要查找的数据的分布。如果您的基础数据存储在类似HBase的东西中,那么设置、修改和更新就容易多了


HBase和Lucene从根本上解决了不同的问题。Lucene是一个索引,允许关键字和其他类型的搜索快速返回。HBase是一个数据存储库,可以实时为单个行提供服务;但是,HBase没有联机查询功能。为了获得最佳效果,您必须将它们结合起来。这方面的一个例子是Lily()

您可能还想看看Lucandra,它是一种带有Cassandra后端的Lucene:


Lucene提供了两个主要功能:结构化搜索和全文搜索。Hbase不提供任何这些,结构化搜索可以用Hbase以一种相对简单的方式完成,我认为这就是礼来的做法。但重建全文搜索将更加困难。为了扩展您的Lucene,您仍然可以尝试通过查找可以在单独区域分割数据的属性来对索引进行分区(您将无法进行跨区域搜索)。然后,每个区域可以有一个集群。

另一个需要研究的技术是Katta或分布式Lucene,它可以在HDFS上运行。

它是否仍在积极开发中?它已移动,但看起来很活跃(最近提交):使用已更改的SolrCloud:您必须手动创建碎片和副本,以匹配您正在查找的数据的分布