Solr中的文档聚类和分类?
我正在用Solr建立文档索引。 文件是非科学的 我有一个分类链接到每个文件,它们可以用于教学。我想为添加后的新文档指定类别。始终添加文档,而不重建所有索引 文档也可以是相同的东西,但来源不同,所以我想对文档进行聚类。因此,当添加文档时,我可以搜索在过去N天内是否已经有这样的主题,如果是,则保存集群ID 索引大小约为500k文档,并且在不断增加,因此速度非常重要 所以我想计算每个新文档的类别ID(基于对预定义文档的培训)、集群ID(仅匹配N天,而不是整个索引) 这有可能与索尔达成协议吗?或者最好制定单独的解决方案(如果是,那么是哪一个?您可以看看。但这可能不是你想要的东西 所以我认为在这一点上你有两个选择:Solr中的文档聚类和分类?,solr,document-classification,text-classification,Solr,Document Classification,Text Classification,我正在用Solr建立文档索引。 文件是非科学的 我有一个分类链接到每个文件,它们可以用于教学。我想为添加后的新文档指定类别。始终添加文档,而不重建所有索引 文档也可以是相同的东西,但来源不同,所以我想对文档进行聚类。因此,当添加文档时,我可以搜索在过去N天内是否已经有这样的主题,如果是,则保存集群ID 索引大小约为500k文档,并且在不断增加,因此速度非常重要 所以我想计算每个新文档的类别ID(基于对预定义文档的培训)、集群ID(仅匹配N天,而不是整个索引) 这有可能与索尔达成协议吗?或者最好制
- 创建Solr插件(基于Carrot或其他插件)
- 在添加文档之前进行手动查询