Statistics 使用hadoop进行简单统计计算的示例
我想扩展一个现有的聚类算法来处理非常大的数据集,并对其进行了重新设计,使其现在可以通过数据分区进行计算,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我认为一个很好的实用起点是计算数据的基本统计数据,即算术平均值和方差 我已经在谷歌上搜索了一段时间,但可能我没有使用正确的关键字,而且我还没有找到任何适合做这种计算的入门资料,所以我想我会在这里问一下 有没有人能告诉我一些关于如何使用hadoop计算均值和方差的好例子,和/或提供一些示例代码Statistics 使用hadoop进行简单统计计算的示例,statistics,hadoop,apache-pig,Statistics,Hadoop,Apache Pig,我想扩展一个现有的聚类算法来处理非常大的数据集,并对其进行了重新设计,使其现在可以通过数据分区进行计算,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我认为一个很好的实用起点是计算数据的基本统计数据,即算术平均值和方差 我已经在谷歌上搜索了一段时间,但可能我没有使用正确的关键字,而且我还没有找到任何适合做这种计算的入门资料,所以我想我会在这里问一下 有没有人能告诉我一些关于如何使用hadoop计算均值和方差的好例子,和/或提供一些示例代码 谢谢你,Pig latin有一个相关的可重用
谢谢你,Pig latin有一个相关的可重用代码库,名为PiggyBank,它有许多方便的函数。不幸的是,上次我检查时它没有变化,但可能已经改变了。如果没有其他内容,它可能会提供一些示例,帮助您开始自己的实现
我应该注意到,方差很难在庞大的数据集上以稳定的方式实现,所以要小心 您可能会仔细检查集群代码是否可以进入级联。在现有java库中添加新函数、进行连接等非常简单 如果您喜欢Clojure,您可能会观看以下github项目:
他们正在层叠Clojure中实现的新算法(这反过来又在Hadoop MapReduce上层叠)。这里有一个关于统计(相关性,协方差)的PiggyBank UDF链接:作为权宜之计,identity cov(x,x)=var(x)提供了一种在Pig中快速生成方差的方法。有两个JIRAs open致力于生成稳定的var函数。希望在猪0.8。