Solr中的文档聚类_Solr_Data Mining_Cluster Analysis_Mahout

Solr中的文档聚类

solr

Solr中的文档聚类,solr,data-mining,cluster-analysis,mahout,Solr,Data Mining,Cluster Analysis,Mahout,首先，我必须提到，我指的是作为数据挖掘技术的文档集群，而不是工作负载集群之类的从一开始，我会说我所拥有的：我总是收到文件。让我们假设这些都是新闻（这是非常相似的事情）每次我得到新的一批“新闻”，我都应该将它们添加到Solr索引中，并获取该文档的集群信息。将这些信息存储在数据库中（这样我就可以知道每个文档的集群）我不能等待集群定义服务/程序不时启动，但它应该动态定义集群我希望能够只在一段时间内获得集群（例如，我希望只搜索一个月前加载的文档的集群）我将有数以万计的新文件，每天和总基数数

首先，我必须提到，我指的是作为数据挖掘技术的文档集群，而不是工作负载集群之类的

从一开始，我会说我所拥有的：

我总是收到文件。让我们假设这些都是新闻（这是非常相似的事情）
每次我得到新的一批“新闻”，我都应该将它们添加到Solr索引中，并获取该文档的集群信息。将这些信息存储在数据库中（这样我就可以知道每个文档的集群）
我不能等待集群定义服务/程序不时启动，但它应该动态定义集群
我希望能够只在一段时间内获得集群（例如，我希望只搜索一个月前加载的文档的集群）
我将有数以万计的新文件，每天和总基数数百万

很久以前，我一直在使用某个库（不记得它的名称），它接收文档作为输入，并生成集群id，如果它认为这是一个新集群，那么它就创建了一个，依此类推。但它工作得很慢（我甚至记不起它的名字）

我找到了一本关于Mahout的书，但仍然不知道我应该读什么，我想要什么。也许，如果不为Solr编写自己的插件，那么使用Solr/Mahout就不可能做到这一点

对于如何建立这样的系统，我将非常感谢您的任何想法和建议

谢谢，我想您不需要任何类型的自定义Solr插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定，因此您可以将其作为普通字段添加到每个Solr文档中

说到使用Mahout进行聚类和分类，我认为这本书是一个很好的开始

干杯。

这是一篇很老的帖子，不过让我回应一下，您可以使用carrot2进行solr结果聚类。这总是在进行中。

是的，我读了一段时间这本书，但仍然需要分享一些经验，以考虑到这一点。但是你应该问更具体的问题-你的数据是什么样的-聚类/分类的信息基础是什么等等。。。