Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/actionscript-3/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr中的文档聚类_Solr_Data Mining_Cluster Analysis_Mahout - Fatal编程技术网

Solr中的文档聚类

Solr中的文档聚类,solr,data-mining,cluster-analysis,mahout,Solr,Data Mining,Cluster Analysis,Mahout,首先,我必须提到,我指的是作为数据挖掘技术的文档集群,而不是工作负载集群之类的 从一开始,我会说我所拥有的: 我总是收到文件。让我们假设这些都是新闻(这是非常相似的事情) 每次我得到新的一批“新闻”,我都应该将它们添加到Solr索引中,并获取该文档的集群信息。将这些信息存储在数据库中(这样我就可以知道每个文档的集群) 我不能等待集群定义服务/程序不时启动,但它应该动态定义集群 我希望能够只在一段时间内获得集群(例如,我希望只搜索一个月前加载的文档的集群) 我将有数以万计的新文件,每天和总基数数

首先,我必须提到,我指的是作为数据挖掘技术的文档集群,而不是工作负载集群之类的

从一开始,我会说我所拥有的:

  • 我总是收到文件。让我们假设这些都是新闻(这是非常相似的事情)
  • 每次我得到新的一批“新闻”,我都应该将它们添加到Solr索引中,并获取该文档的集群信息。将这些信息存储在数据库中(这样我就可以知道每个文档的集群)
  • 我不能等待集群定义服务/程序不时启动,但它应该动态定义集群
  • 我希望能够只在一段时间内获得集群(例如,我希望只搜索一个月前加载的文档的集群)
  • 我将有数以万计的新文件,每天和总基数数百万
很久以前,我一直在使用某个库(不记得它的名称),它接收文档作为输入,并生成集群id,如果它认为这是一个新集群,那么它就创建了一个,依此类推。但它工作得很慢(我甚至记不起它的名字)

我找到了一本关于Mahout的书,但仍然不知道我应该读什么,我想要什么。也许,如果不为Solr编写自己的插件,那么使用Solr/Mahout就不可能做到这一点

对于如何建立这样的系统,我将非常感谢您的任何想法和建议


谢谢,我想您不需要任何类型的自定义Solr插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定,因此您可以将其作为普通字段添加到每个Solr文档中

说到使用Mahout进行聚类和分类,我认为这本书是一个很好的开始


干杯。

这是一篇很老的帖子,不过让我回应一下,您可以使用carrot2进行solr结果聚类。这总是在进行中。

是的,我读了一段时间这本书,但仍然需要分享一些经验,以考虑到这一点。但是你应该问更具体的问题-你的数据是什么样的-聚类/分类的信息基础是什么等等。。。