基于solr场(包括地理空间位置场)的solr聚类
正在尝试使用carrot2进行结果集聚类。关于这一点,我有几个问题 a) 我们可以根据Solr中的特定字段对Solr/Lucene中的文档进行集群吗?例如,使用特定字段权重,基于姓名、人名和地理距离位置(纬度、经度)对其进行聚类基于solr场(包括地理空间位置场)的solr聚类,solr,lucene,carrot2,Solr,Lucene,Carrot2,正在尝试使用carrot2进行结果集聚类。关于这一点,我有几个问题 a) 我们可以根据Solr中的特定字段对Solr/Lucene中的文档进行集群吗?例如,使用特定字段权重,基于姓名、人名和地理距离位置(纬度、经度)对其进行聚类 b) 我的集群用例并不是真正在线的,它更多的是一个批量用例,考虑到这一点,我们是否仍然有1K最大结果数的限制 Carrot2仅基于文档的自然文本执行聚类。人名可能太短,无法进行有意义的聚类;胡萝卜2不适用于地理距离和其他数值数据 1k限制/推荐基于Carrot2的设计目
b) 我的集群用例并不是真正在线的,它更多的是一个批量用例,考虑到这一点,我们是否仍然有1K最大结果数的限制 Carrot2仅基于文档的自然文本执行聚类。人名可能太短,无法进行有意义的聚类;胡萝卜2不适用于地理距离和其他数值数据
1k限制/推荐基于Carrot2的设计目标:足够快地对小文本集合(如搜索结果)进行聚类,以便在线完成该过程。Carrot2在收集大约1k个文档方面做得很好,但不能扩展到数千个文档之外。谢谢。在Solr中,我可以执行Solr查询并获得由多个字段、权重和地理距离组成的分数。如果我们能用这个分数作为距离的度量来进行聚类,那就好了。如果现在没有选择,这是胡萝卜2的愿景吗?你能告诉我什么是“自然文本”吗?我相信它是solr中的任何字段(单个或复合/复制字段)。Carrot2是专门为聚类自然文本而设计的,如网页内容、新闻文章、科学论文等。它内部没有使用依赖于距离度量的经典聚类算法,因此它不适用于数字数据。我们不打算在Carrot2中添加数值集群,因为还有很多其他的开源项目可以很好地做到这一点。