Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-apps-script/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
hadoop上的相关性计算?_Hadoop_Statistics_Correlation - Fatal编程技术网

hadoop上的相关性计算?

hadoop上的相关性计算?,hadoop,statistics,correlation,Hadoop,Statistics,Correlation,如果我想计算网格上大量数据的相关性()以及大量维度(我想在哪个维度上计算与结果的相关性),我想知道在Hadoop网格上实现是否有任何现有的或更智能的方法 首选Pig/Java/Python实现: 提前感谢,, 乔治为什么要使用皮尔逊相关系数?建议你使用互信息,它更一般。至于您的问题,能够提供一个实现有点含糊不清。你需要更具体地说明你的数据是以什么形式存在的。我认为互信息不能给出一个定性的度量,比如置信区间,来判断匹配的好坏?如果我错了,请随时纠正我。是和否。这取决于你如何进行概率估计。听起来很有

如果我想计算网格上大量数据的相关性()以及大量维度(我想在哪个维度上计算与结果的相关性),我想知道在Hadoop网格上实现是否有任何现有的或更智能的方法

首选Pig/Java/Python实现:

提前感谢,,
乔治

为什么要使用皮尔逊相关系数?建议你使用互信息,它更一般。至于您的问题,能够提供一个实现有点含糊不清。你需要更具体地说明你的数据是以什么形式存在的。我认为互信息不能给出一个定性的度量,比如置信区间,来判断匹配的好坏?如果我错了,请随时纠正我。是和否。这取决于你如何进行概率估计。听起来很有趣。你能告诉我如何使用MI和置信区间吗?谢谢,非常简单;当你估计你的概率时,你可以定义一个置信区间(这取决于你的样本量和之前的数据),这可以在你的MI上产生一个置信区间。