基于solr场（包括地理空间位置场）的solr聚类_Solr_Lucene_Carrot2

基于solr场（包括地理空间位置场）的solr聚类

solr lucene

基于solr场（包括地理空间位置场）的solr聚类,solr,lucene,carrot2,Solr,Lucene,Carrot2,正在尝试使用carrot2进行结果集聚类。关于这一点，我有几个问题 a）我们可以根据Solr中的特定字段对Solr/Lucene中的文档进行集群吗？例如，使用特定字段权重，基于姓名、人名和地理距离位置（纬度、经度）对其进行聚类 b）我的集群用例并不是真正在线的，它更多的是一个批量用例，考虑到这一点，我们是否仍然有1K最大结果数的限制 Carrot2仅基于文档的自然文本执行聚类。人名可能太短，无法进行有意义的聚类；胡萝卜2不适用于地理距离和其他数值数据 1k限制/推荐基于Carrot2的设计目

正在尝试使用carrot2进行结果集聚类。关于这一点，我有几个问题

a）我们可以根据Solr中的特定字段对Solr/Lucene中的文档进行集群吗？例如，使用特定字段权重，基于姓名、人名和地理距离位置（纬度、经度）对其进行聚类

b）我的集群用例并不是真正在线的，它更多的是一个批量用例，考虑到这一点，我们是否仍然有1K最大结果数的限制

Carrot2仅基于文档的自然文本执行聚类。人名可能太短，无法进行有意义的聚类；胡萝卜2不适用于地理距离和其他数值数据

1k限制/推荐基于Carrot2的设计目标：足够快地对小文本集合（如搜索结果）进行聚类，以便在线完成该过程。Carrot2在收集大约1k个文档方面做得很好，但不能扩展到数千个文档之外。

谢谢。在Solr中，我可以执行Solr查询并获得由多个字段、权重和地理距离组成的分数。如果我们能用这个分数作为距离的度量来进行聚类，那就好了。如果现在没有选择，这是胡萝卜2的愿景吗？你能告诉我什么是“自然文本”吗？我相信它是solr中的任何字段（单个或复合/复制字段）。Carrot2是专门为聚类自然文本而设计的，如网页内容、新闻文章、科学论文等。它内部没有使用依赖于距离度量的经典聚类算法，因此它不适用于数字数据。我们不打算在Carrot2中添加数值集群，因为还有很多其他的开源项目可以很好地做到这一点。