如何将Weka与Hadoop链接?

如何将Weka与Hadoop链接?,hadoop,weka,pca,Hadoop,Weka,Pca,我有一个数据集,我需要处理PCA(主成分分析,一个维度缩减程序),这很容易使用Weka进行 由于数据集很大,Weka显示了内存问题,如果我将Weka与Hadoop链接,就可以解决这些问题。在服务器中使用weka运行算法。有人能帮我做同样的事吗。如何将Weka与Hadoop连接起来以处理更大的数据集?请帮忙 谢谢..根据算法的不同,重写它以使用Hadoop可能会非常复杂 你可以用 Weka 3.7提供了用于Hadoop中分布式处理的新包。这些包提供的一个作业将在Hadoop中计算相关(或协方差)矩

我有一个数据集,我需要处理PCA(主成分分析,一个维度缩减程序),这很容易使用Weka进行

由于数据集很大,Weka显示了内存问题,如果我将Weka与Hadoop链接,就可以解决这些问题。在服务器中使用weka运行算法。有人能帮我做同样的事吗。如何将Weka与Hadoop连接起来以处理更大的数据集?请帮忙


谢谢..

根据算法的不同,重写它以使用Hadoop可能会非常复杂


你可以用

Weka 3.7提供了用于Hadoop中分布式处理的新包。这些包提供的一个作业将在Hadoop中计算相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为PCA分析的输入(该部分在Hadoop之外运行),并生成“经过训练”的Weka PCA过滤器。这将根据实例数量(但不是原始特征的数量)缩放Weka的PCA分析,因为PCA计算仍然在客户端机器上本地进行

有关Hadoop软件包的更多信息,请参阅:

distributedWekaHadoop软件包可以通过Weka 3.7中的软件包管理器安装

干杯,
马克。

这有帮助吗?Weka包能否与Hadoop 2.5.x及更高版本配合使用?我曾尝试在Hadoop 2.6.0上运行它,但它给出的版本不匹配。根据Mark Hall的文档,该包在Hadoop 1.1.2上运行