Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr中的文档聚类和分类?_Solr_Document Classification_Text Classification - Fatal编程技术网

Solr中的文档聚类和分类?

Solr中的文档聚类和分类?,solr,document-classification,text-classification,Solr,Document Classification,Text Classification,我正在用Solr建立文档索引。 文件是非科学的 我有一个分类链接到每个文件,它们可以用于教学。我想为添加后的新文档指定类别。始终添加文档,而不重建所有索引 文档也可以是相同的东西,但来源不同,所以我想对文档进行聚类。因此,当添加文档时,我可以搜索在过去N天内是否已经有这样的主题,如果是,则保存集群ID 索引大小约为500k文档,并且在不断增加,因此速度非常重要 所以我想计算每个新文档的类别ID(基于对预定义文档的培训)、集群ID(仅匹配N天,而不是整个索引) 这有可能与索尔达成协议吗?或者最好制

我正在用Solr建立文档索引。 文件是非科学的

我有一个分类链接到每个文件,它们可以用于教学。我想为添加后的新文档指定类别。始终添加文档,而不重建所有索引

文档也可以是相同的东西,但来源不同,所以我想对文档进行聚类。因此,当添加文档时,我可以搜索在过去N天内是否已经有这样的主题,如果是,则保存集群ID

索引大小约为500k文档,并且在不断增加,因此速度非常重要

所以我想计算每个新文档的类别ID(基于对预定义文档的培训)、集群ID(仅匹配N天,而不是整个索引)

这有可能与索尔达成协议吗?或者最好制定单独的解决方案(如果是,那么是哪一个?

您可以看看。但这可能不是你想要的东西

所以我认为在这一点上你有两个选择:

  • 创建Solr插件(基于Carrot或其他插件)
  • 在添加文档之前进行手动查询

solr 6.1和lucene 6.1现在具有此功能。它提供了现成的knn和朴素贝叶斯。这是一篇关于如何在solr中使用它的好文章: