Search 数据挖掘引擎和框架？_Search_Text_Full Text Search_Cluster Analysis_Data Mining

Search 数据挖掘引擎和框架？

search text

Search 数据挖掘引擎和框架？,search,text,full-text-search,cluster-analysis,data-mining,Search,Text,Full Text Search,Cluster Analysis,Data Mining,您知道并使用哪些开源/免费数据挖掘引擎和框架来挖掘文本数据谢谢你的建议我不知道引擎或框架，但我使用了这个名为的工具，它实现了大量的算法。不太确定您在寻找什么。也许类似于？对于文本处理（而不是数字数据挖掘和集群），NLTK工具包值得一看。本课程旨在用Python教授自然语言处理技术。因此，它非常适合修补，如果您选择使用Python，您一定会发现许多组件类和实现都很有用。RapidMiner是免费的、开源的，运行在windows、mac、linux上，是一个很好的基于图形化工作流的程序。它运行所

您知道并使用哪些开源/免费数据挖掘引擎和框架来挖掘文本数据

谢谢你的建议

我不知道引擎或框架，但我使用了这个名为的工具，它实现了大量的算法。

不太确定您在寻找什么。也许类似于？

对于文本处理（而不是数字数据挖掘和集群），NLTK工具包值得一看。本课程旨在用Python教授自然语言处理技术。因此，它非常适合修补，如果您选择使用Python，您一定会发现许多组件类和实现都很有用。

RapidMiner是免费的、开源的，运行在windows、mac、linux上，是一个很好的基于图形化工作流的程序。它运行所有的Weka代码，并与R集成。

提供了一系列流行的算法，这些算法也可以应用于文本数据，并且具有很强的可扩展性！不提供数据挖掘算法，但它是一个广泛用于自然语言处理的框架。

RapidMiner是我首选的数据挖掘解决方案：

以下是对数据挖掘专家中最流行的数据挖掘工具的调查：

KDnuggets Poll 2011：RapidMiner是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。

Weka和RapidMiner在集群方面没有那么强大。它们大多进行分类和类似的预测，但很少进行聚类。看一看，这就像大学的WEKA项目，但有大量的聚类和异常检测方法。

我是一个Java开源频繁模式挖掘软件的作者。它提供了挖掘序列模式、关联规则、频繁项集等的算法

虽然它不是专门为文本挖掘而设计的，但其中一些算法可以应用于挖掘文本中的频繁模式。例如，如果你想找到一些经常出现在几个句子中的单词序列，你可以应用序列模式挖掘算法。但要做到这一点，您需要在应用我的软件之前进行一些预处理，以便您的文本文件格式正确

您可以在此处检查软件：

Apache Mahout是一个开源的Machile学习库，可以与MapReduce（Apache Hadoop）一起使用，也可以不使用MapReduce

它提供了以下用Java实现的算法：

协同过滤
基于用户和项目的推荐者
K-均值，模糊K-均值聚类
均值漂移聚类
Dirichlet过程聚类
潜在Dirichlet分配
奇异值分解
并行频繁模式挖掘
互补朴素贝叶斯分类器
基于随机森林决策树的分类器

你可以阅读更多：

谢谢！如果我的一个项目是python，我会检查这个工具包；）非常感谢。正如我发现的那样，作者们写了一本好书@el谢谢；）我会检查它）你真的在找一个文本挖掘引擎吗？数据挖掘引擎倾向于处理元数据，而不是文本本身。