hadoop上的相关性计算？_Hadoop_Statistics_Correlation

hadoop上的相关性计算？

hadoop statistics

hadoop上的相关性计算？,hadoop,statistics,correlation,Hadoop,Statistics,Correlation,如果我想计算网格上大量数据的相关性（）以及大量维度（我想在哪个维度上计算与结果的相关性），我想知道在Hadoop网格上实现是否有任何现有的或更智能的方法首选Pig/Java/Python实现：提前感谢,，乔治为什么要使用皮尔逊相关系数？建议你使用互信息，它更一般。至于您的问题，能够提供一个实现有点含糊不清。你需要更具体地说明你的数据是以什么形式存在的。我认为互信息不能给出一个定性的度量，比如置信区间，来判断匹配的好坏？如果我错了，请随时纠正我。是和否。这取决于你如何进行概率估计。听起来很有

如果我想计算网格上大量数据的相关性（）以及大量维度（我想在哪个维度上计算与结果的相关性），我想知道在Hadoop网格上实现是否有任何现有的或更智能的方法

首选Pig/Java/Python实现：

提前感谢,，

乔治

为什么要使用皮尔逊相关系数？建议你使用互信息，它更一般。至于您的问题，能够提供一个实现有点含糊不清。你需要更具体地说明你的数据是以什么形式存在的。我认为互信息不能给出一个定性的度量，比如置信区间，来判断匹配的好坏？如果我错了，请随时纠正我。是和否。这取决于你如何进行概率估计。听起来很有趣。你能告诉我如何使用MI和置信区间吗？谢谢，非常简单；当你估计你的概率时，你可以定义一个置信区间（这取决于你的样本量和之前的数据），这可以在你的MI上产生一个置信区间。