Search 数据挖掘引擎和框架?

Search 数据挖掘引擎和框架?,search,text,full-text-search,cluster-analysis,data-mining,Search,Text,Full Text Search,Cluster Analysis,Data Mining,您知道并使用哪些开源/免费数据挖掘引擎和框架来挖掘文本数据 谢谢你的建议 我不知道引擎或框架,但我使用了这个名为的工具,它实现了大量的算法。不太确定您在寻找什么。也许类似于?对于文本处理(而不是数字数据挖掘和集群),NLTK工具包值得一看。本课程旨在用Python教授自然语言处理技术。因此,它非常适合修补,如果您选择使用Python,您一定会发现许多组件类和实现都很有用。RapidMiner是免费的、开源的,运行在windows、mac、linux上,是一个很好的基于图形化工作流的程序。它运行所

您知道并使用哪些开源/免费数据挖掘引擎和框架来挖掘文本数据


谢谢你的建议

我不知道引擎或框架,但我使用了这个名为的工具,它实现了大量的算法。

不太确定您在寻找什么。也许类似于?

对于文本处理(而不是数字数据挖掘和集群),NLTK工具包值得一看。本课程旨在用Python教授自然语言处理技术。因此,它非常适合修补,如果您选择使用Python,您一定会发现许多组件类和实现都很有用。

RapidMiner是免费的、开源的,运行在windows、mac、linux上,是一个很好的基于图形化工作流的程序。它运行所有的Weka代码,并与R集成。

提供了一系列流行的算法,这些算法也可以应用于文本数据,并且具有很强的可扩展性!不提供数据挖掘算法,但它是一个广泛用于自然语言处理的框架。

RapidMiner是我首选的数据挖掘解决方案:

以下是对数据挖掘专家中最流行的数据挖掘工具的调查:


KDnuggets Poll 2011:RapidMiner是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。

Weka和RapidMiner在集群方面没有那么强大。它们大多进行分类和类似的预测,但很少进行聚类。看一看,这就像大学的WEKA项目,但有大量的聚类和异常检测方法。

我是一个Java开源频繁模式挖掘软件的作者。它提供了挖掘序列模式、关联规则、频繁项集等的算法

虽然它不是专门为文本挖掘而设计的,但其中一些算法可以应用于挖掘文本中的频繁模式。例如,如果你想找到一些经常出现在几个句子中的单词序列,你可以应用序列模式挖掘算法。但要做到这一点,您需要在应用我的软件之前进行一些预处理,以便您的文本文件格式正确

您可以在此处检查软件:
Apache Mahout是一个开源的Machile学习库,可以与MapReduce(Apache Hadoop)一起使用,也可以不使用MapReduce

它提供了以下用Java实现的算法:

  • 协同过滤
  • 基于用户和项目的推荐者
  • K-均值,模糊K-均值聚类
  • 均值漂移聚类
  • Dirichlet过程聚类
  • 潜在Dirichlet分配
  • 奇异值分解
  • 并行频繁模式挖掘
  • 互补朴素贝叶斯分类器
  • 基于随机森林决策树的分类器
你可以阅读更多:


谢谢!如果我的一个项目是python,我会检查这个工具包;)非常感谢。正如我发现的那样,作者们写了一本好书@el谢谢;)我会检查它)你真的在找一个文本挖掘引擎吗?数据挖掘引擎倾向于处理元数据,而不是文本本身。