Statistics 使用hadoop进行简单统计计算的示例_Statistics_Hadoop_Apache Pig

Statistics 使用hadoop进行简单统计计算的示例

statistics hadoop apache-pig

Statistics 使用hadoop进行简单统计计算的示例,statistics,hadoop,apache-pig,Statistics,Hadoop,Apache Pig,我想扩展一个现有的聚类算法来处理非常大的数据集，并对其进行了重新设计，使其现在可以通过数据分区进行计算，这为并行处理打开了大门。我一直在研究Hadoop和Pig，我认为一个很好的实用起点是计算数据的基本统计数据，即算术平均值和方差我已经在谷歌上搜索了一段时间，但可能我没有使用正确的关键字，而且我还没有找到任何适合做这种计算的入门资料，所以我想我会在这里问一下有没有人能告诉我一些关于如何使用hadoop计算均值和方差的好例子，和/或提供一些示例代码谢谢你，Pig latin有一个相关的可重用

我想扩展一个现有的聚类算法来处理非常大的数据集，并对其进行了重新设计，使其现在可以通过数据分区进行计算，这为并行处理打开了大门。我一直在研究Hadoop和Pig，我认为一个很好的实用起点是计算数据的基本统计数据，即算术平均值和方差

我已经在谷歌上搜索了一段时间，但可能我没有使用正确的关键字，而且我还没有找到任何适合做这种计算的入门资料，所以我想我会在这里问一下

有没有人能告诉我一些关于如何使用hadoop计算均值和方差的好例子，和/或提供一些示例代码

谢谢你，Pig latin有一个相关的可重用代码库，名为PiggyBank，它有许多方便的函数。不幸的是，上次我检查时它没有变化，但可能已经改变了。如果没有其他内容，它可能会提供一些示例，帮助您开始自己的实现

我应该注意到，方差很难在庞大的数据集上以稳定的方式实现，所以要小心

您可能会仔细检查集群代码是否可以进入级联。在现有java库中添加新函数、进行连接等非常简单

如果您喜欢Clojure，您可能会观看以下github项目：

他们正在层叠Clojure中实现的新算法（这反过来又在Hadoop MapReduce上层叠）。

这里有一个关于统计（相关性，协方差）的PiggyBank UDF链接：作为权宜之计，identity cov（x，x）=var（x）提供了一种在Pig中快速生成方差的方法。有两个JIRAs open致力于生成稳定的var函数。希望在猪0.8。