Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Statistics 使用hadoop进行简单统计计算的示例_Statistics_Hadoop_Apache Pig - Fatal编程技术网

Statistics 使用hadoop进行简单统计计算的示例

Statistics 使用hadoop进行简单统计计算的示例,statistics,hadoop,apache-pig,Statistics,Hadoop,Apache Pig,我想扩展一个现有的聚类算法来处理非常大的数据集,并对其进行了重新设计,使其现在可以通过数据分区进行计算,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我认为一个很好的实用起点是计算数据的基本统计数据,即算术平均值和方差 我已经在谷歌上搜索了一段时间,但可能我没有使用正确的关键字,而且我还没有找到任何适合做这种计算的入门资料,所以我想我会在这里问一下 有没有人能告诉我一些关于如何使用hadoop计算均值和方差的好例子,和/或提供一些示例代码 谢谢你,Pig latin有一个相关的可重用

我想扩展一个现有的聚类算法来处理非常大的数据集,并对其进行了重新设计,使其现在可以通过数据分区进行计算,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我认为一个很好的实用起点是计算数据的基本统计数据,即算术平均值和方差

我已经在谷歌上搜索了一段时间,但可能我没有使用正确的关键字,而且我还没有找到任何适合做这种计算的入门资料,所以我想我会在这里问一下

有没有人能告诉我一些关于如何使用hadoop计算均值和方差的好例子,和/或提供一些示例代码


谢谢你,Pig latin有一个相关的可重用代码库,名为PiggyBank,它有许多方便的函数。不幸的是,上次我检查时它没有变化,但可能已经改变了。如果没有其他内容,它可能会提供一些示例,帮助您开始自己的实现


我应该注意到,方差很难在庞大的数据集上以稳定的方式实现,所以要小心

您可能会仔细检查集群代码是否可以进入级联。在现有java库中添加新函数、进行连接等非常简单

如果您喜欢Clojure,您可能会观看以下github项目:


他们正在层叠Clojure中实现的新算法(这反过来又在Hadoop MapReduce上层叠)。

这里有一个关于统计(相关性,协方差)的PiggyBank UDF链接:作为权宜之计,identity cov(x,x)=var(x)提供了一种在Pig中快速生成方差的方法。有两个JIRAs open致力于生成稳定的var函数。希望在猪0.8。