Solr中的文档聚类和分类？_Solr_Document Classification_Text Classification

Solr中的文档聚类和分类？

solr

Solr中的文档聚类和分类？,solr,document-classification,text-classification,Solr,Document Classification,Text Classification,我正在用Solr建立文档索引。文件是非科学的我有一个分类链接到每个文件，它们可以用于教学。我想为添加后的新文档指定类别。始终添加文档，而不重建所有索引文档也可以是相同的东西，但来源不同，所以我想对文档进行聚类。因此，当添加文档时，我可以搜索在过去N天内是否已经有这样的主题，如果是，则保存集群ID 索引大小约为500k文档，并且在不断增加，因此速度非常重要所以我想计算每个新文档的类别ID（基于对预定义文档的培训）、集群ID（仅匹配N天，而不是整个索引）这有可能与索尔达成协议吗？或者最好制

我正在用Solr建立文档索引。文件是非科学的

我有一个分类链接到每个文件，它们可以用于教学。我想为添加后的新文档指定类别。始终添加文档，而不重建所有索引

文档也可以是相同的东西，但来源不同，所以我想对文档进行聚类。因此，当添加文档时，我可以搜索在过去N天内是否已经有这样的主题，如果是，则保存集群ID

索引大小约为500k文档，并且在不断增加，因此速度非常重要

所以我想计算每个新文档的类别ID（基于对预定义文档的培训）、集群ID（仅匹配N天，而不是整个索引）

这有可能与索尔达成协议吗？或者最好制定单独的解决方案（如果是，那么是哪一个？

您可以看看。但这可能不是你想要的东西

所以我认为在这一点上你有两个选择：

创建Solr插件（基于Carrot或其他插件）
在添加文档之前进行手动查询

solr 6.1和lucene 6.1现在具有此功能。它提供了现成的knn和朴素贝叶斯。这是一篇关于如何在solr中使用它的好文章：