Solr中的文档聚类
首先,我必须提到,我指的是作为数据挖掘技术的文档集群,而不是工作负载集群之类的 从一开始,我会说我所拥有的:Solr中的文档聚类,solr,data-mining,cluster-analysis,mahout,Solr,Data Mining,Cluster Analysis,Mahout,首先,我必须提到,我指的是作为数据挖掘技术的文档集群,而不是工作负载集群之类的 从一开始,我会说我所拥有的: 我总是收到文件。让我们假设这些都是新闻(这是非常相似的事情) 每次我得到新的一批“新闻”,我都应该将它们添加到Solr索引中,并获取该文档的集群信息。将这些信息存储在数据库中(这样我就可以知道每个文档的集群) 我不能等待集群定义服务/程序不时启动,但它应该动态定义集群 我希望能够只在一段时间内获得集群(例如,我希望只搜索一个月前加载的文档的集群) 我将有数以万计的新文件,每天和总基数数
- 我总是收到文件。让我们假设这些都是新闻(这是非常相似的事情)
- 每次我得到新的一批“新闻”,我都应该将它们添加到Solr索引中,并获取该文档的集群信息。将这些信息存储在数据库中(这样我就可以知道每个文档的集群)
- 我不能等待集群定义服务/程序不时启动,但它应该动态定义集群
- 我希望能够只在一段时间内获得集群(例如,我希望只搜索一个月前加载的文档的集群)
- 我将有数以万计的新文件,每天和总基数数百万
谢谢,我想您不需要任何类型的自定义Solr插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定,因此您可以将其作为普通字段添加到每个Solr文档中 说到使用Mahout进行聚类和分类,我认为这本书是一个很好的开始
干杯。这是一篇很老的帖子,不过让我回应一下,您可以使用carrot2进行solr结果聚类。这总是在进行中。是的,我读了一段时间这本书,但仍然需要分享一些经验,以考虑到这一点。但是你应该问更具体的问题-你的数据是什么样的-聚类/分类的信息基础是什么等等。。。