Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
基于solr场(包括地理空间位置场)的solr聚类_Solr_Lucene_Carrot2 - Fatal编程技术网

基于solr场(包括地理空间位置场)的solr聚类

基于solr场(包括地理空间位置场)的solr聚类,solr,lucene,carrot2,Solr,Lucene,Carrot2,正在尝试使用carrot2进行结果集聚类。关于这一点,我有几个问题 a) 我们可以根据Solr中的特定字段对Solr/Lucene中的文档进行集群吗?例如,使用特定字段权重,基于姓名、人名和地理距离位置(纬度、经度)对其进行聚类 b) 我的集群用例并不是真正在线的,它更多的是一个批量用例,考虑到这一点,我们是否仍然有1K最大结果数的限制 Carrot2仅基于文档的自然文本执行聚类。人名可能太短,无法进行有意义的聚类;胡萝卜2不适用于地理距离和其他数值数据 1k限制/推荐基于Carrot2的设计目

正在尝试使用carrot2进行结果集聚类。关于这一点,我有几个问题

a) 我们可以根据Solr中的特定字段对Solr/Lucene中的文档进行集群吗?例如,使用特定字段权重,基于姓名、人名和地理距离位置(纬度、经度)对其进行聚类


b) 我的集群用例并不是真正在线的,它更多的是一个批量用例,考虑到这一点,我们是否仍然有1K最大结果数的限制

Carrot2仅基于文档的自然文本执行聚类。人名可能太短,无法进行有意义的聚类;胡萝卜2不适用于地理距离和其他数值数据


1k限制/推荐基于Carrot2的设计目标:足够快地对小文本集合(如搜索结果)进行聚类,以便在线完成该过程。Carrot2在收集大约1k个文档方面做得很好,但不能扩展到数千个文档之外。

谢谢。在Solr中,我可以执行Solr查询并获得由多个字段、权重和地理距离组成的分数。如果我们能用这个分数作为距离的度量来进行聚类,那就好了。如果现在没有选择,这是胡萝卜2的愿景吗?你能告诉我什么是“自然文本”吗?我相信它是solr中的任何字段(单个或复合/复制字段)。Carrot2是专门为聚类自然文本而设计的,如网页内容、新闻文章、科学论文等。它内部没有使用依赖于距离度量的经典聚类算法,因此它不适用于数字数据。我们不打算在Carrot2中添加数值集群,因为还有很多其他的开源项目可以很好地做到这一点。