如何将Weka与Hadoop链接？_Hadoop_Weka_Pca

如何将Weka与Hadoop链接？

hadoop

如何将Weka与Hadoop链接？,hadoop,weka,pca,Hadoop,Weka,Pca,我有一个数据集，我需要处理PCA（主成分分析，一个维度缩减程序），这很容易使用Weka进行由于数据集很大，Weka显示了内存问题，如果我将Weka与Hadoop链接，就可以解决这些问题。在服务器中使用weka运行算法。有人能帮我做同样的事吗。如何将Weka与Hadoop连接起来以处理更大的数据集？请帮忙谢谢..根据算法的不同，重写它以使用Hadoop可能会非常复杂你可以用 Weka 3.7提供了用于Hadoop中分布式处理的新包。这些包提供的一个作业将在Hadoop中计算相关（或协方差）矩

我有一个数据集，我需要处理PCA（主成分分析，一个维度缩减程序），这很容易使用Weka进行

由于数据集很大，Weka显示了内存问题，如果我将Weka与Hadoop链接，就可以解决这些问题。在服务器中使用weka运行算法。有人能帮我做同样的事吗。如何将Weka与Hadoop连接起来以处理更大的数据集？请帮忙

谢谢..

根据算法的不同，重写它以使用Hadoop可能会非常复杂

你可以用

Weka 3.7提供了用于Hadoop中分布式处理的新包。这些包提供的一个作业将在Hadoop中计算相关（或协方差）矩阵。用户可以选择让作业使用相关矩阵作为PCA分析的输入（该部分在Hadoop之外运行），并生成“经过训练”的Weka PCA过滤器。这将根据实例数量（但不是原始特征的数量）缩放Weka的PCA分析，因为PCA计算仍然在客户端机器上本地进行

有关Hadoop软件包的更多信息，请参阅：

distributedWekaHadoop软件包可以通过Weka 3.7中的软件包管理器安装

干杯，

马克。

这有帮助吗？Weka包能否与Hadoop 2.5.x及更高版本配合使用？我曾尝试在Hadoop 2.6.0上运行它，但它给出的版本不匹配。根据Mark Hall的文档，该包在Hadoop 1.1.2上运行