hadoop上的相关性计算?
如果我想计算网格上大量数据的相关性()以及大量维度(我想在哪个维度上计算与结果的相关性),我想知道在Hadoop网格上实现是否有任何现有的或更智能的方法 首选Pig/Java/Python实现: 提前感谢,,hadoop上的相关性计算?,hadoop,statistics,correlation,Hadoop,Statistics,Correlation,如果我想计算网格上大量数据的相关性()以及大量维度(我想在哪个维度上计算与结果的相关性),我想知道在Hadoop网格上实现是否有任何现有的或更智能的方法 首选Pig/Java/Python实现: 提前感谢,, 乔治为什么要使用皮尔逊相关系数?建议你使用互信息,它更一般。至于您的问题,能够提供一个实现有点含糊不清。你需要更具体地说明你的数据是以什么形式存在的。我认为互信息不能给出一个定性的度量,比如置信区间,来判断匹配的好坏?如果我错了,请随时纠正我。是和否。这取决于你如何进行概率估计。听起来很有
乔治为什么要使用皮尔逊相关系数?建议你使用互信息,它更一般。至于您的问题,能够提供一个实现有点含糊不清。你需要更具体地说明你的数据是以什么形式存在的。我认为互信息不能给出一个定性的度量,比如置信区间,来判断匹配的好坏?如果我错了,请随时纠正我。是和否。这取决于你如何进行概率估计。听起来很有趣。你能告诉我如何使用MI和置信区间吗?谢谢,非常简单;当你估计你的概率时,你可以定义一个置信区间(这取决于你的样本量和之前的数据),这可以在你的MI上产生一个置信区间。