Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/310.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/react-native/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 5天内发现2个变量之间的相关性_Python - Fatal编程技术网

Python 5天内发现2个变量之间的相关性

Python 5天内发现2个变量之间的相关性,python,Python,这是我的数据集: 我是数据分析新手,找到这两个事件之间相关性的最佳方法是什么 inc_cnt_bfr是事件之前,inc_cnt_aft是事件之后。appid和chg_编号成对出现 例如,第1行中的“事件增加”是20,而“事件增加”是70 我遇到过最近的邻居,以及metrics='Correlation',当我查看文档时,理解起来很混乱。在培训期间,我学习了numpy、pandas和基本的ml算法。试图实现我所学到的,但需要一些关于找到这类数据集的相关系数或假设检验的最佳方法的建议 我已经实现了两

这是我的数据集:

我是数据分析新手,找到这两个事件之间相关性的最佳方法是什么

inc_cnt_bfr是事件之前,inc_cnt_aft是事件之后。appid和chg_编号成对出现

例如,第1行中的“事件增加”是20,而“事件增加”是70

我遇到过最近的邻居,以及metrics='Correlation',当我查看文档时,理解起来很混乱。在培训期间,我学习了numpy、pandas和基本的ml算法。试图实现我所学到的,但需要一些关于找到这类数据集的相关系数或假设检验的最佳方法的建议 我已经实现了两种方法作为@rajith和@Ricardo的建议

using panda.corr method , 
# finding correlation using pandas.corr

orrelation between inc_number with panda dataframe 
# Values are discreet

pd_correlation = df["inc_cnt_bfr"].corr(df["inc_cnt_bfr"])
pd_correlation
结果:0.9,我认为这是一个很强的正相关

我使用的另一种方法是斯皮尔曼方法,但结果是0.3,我认为这是负相关

这就是我如何使用spearman方法实现的:

使用斯皮尔曼相关

参考:


两者都产生了不同的值,如何确定这类数据集的正确值?

基本上,您使用两种方法来计算相关性。默认方法是pearson correlation

Pearson相关性评估两个连续变量之间的线性关系

Spearman相关性评估单调关系

如果你对数据集和特征有了一个概念,如果你认为会有一个线性关系,那么就去皮尔逊,否则就去斯皮尔曼

您可以使用pandas函数来查找相关性

首先将数据加载到数据帧

df = pd.read_csv("filename.csv")
correlation = df["inc_cnt_aft"].corr(df["inc_cnt_bfr]")

基本上,您使用两种方法来计算相关性。默认方法是pearson相关性

Pearson相关性评估两个连续变量之间的线性关系

Spearman相关性评估单调关系

如果你对数据集和特征有了一个概念,如果你认为会有一个线性关系,那么就去皮尔逊,否则就去斯皮尔曼

您可以使用pandas函数来查找相关性

首先将数据加载到数据帧

df = pd.read_csv("filename.csv")
correlation = df["inc_cnt_aft"].corr(df["inc_cnt_bfr]")

你需要的是计算两个随机变量之间的相关系数,在这种情况下是两个离散变量。可以使用。假设您的数据加载到熊猫数据框df中,您可以使用pearsoncorr=df.corrmethod='spearman',这将生成该数据框中包含的列的相关矩阵。如果只需要这两个变量的值,请仅选择这两列

更新:
根据问题的更新和相关度量的结果,我建议您对数据进行可视化,因为我直觉认为您存在异常值。两种度量值之间的差异有不同的原因,其中一个原因是存在扭曲数据或异常值。

您需要的是计算两个随机变量之间的相关系数,在这种情况下是两个离散变量。可以使用。假设您的数据加载到熊猫数据框df中,您可以使用pearsoncorr=df.corrmethod='spearman',这将生成该数据框中包含的列的相关矩阵。如果只需要这两个变量的值,请仅选择这两列

更新:
根据问题的更新和相关度量的结果,我建议您对数据进行可视化,因为我直觉认为您存在异常值。两种度量值之间的差异有不同的原因,其中一个原因是存在扭曲数据或异常值。

谢谢@rajith Thennakoon。然而,基于相关,结果是0.9,我相信我可以说这是一个正相关?我们能根据得到的相关值绘制出图表吗?是的,它是正相关。因为两个系列的相关只是一个数字。如果你想绘制自相关,你可以使用statsmodels plot_acf函数绘制相关图。谢谢@rajith Thennakoon。然而,基于相关,结果是0.9,我相信我可以说这是一个正相关?我们能根据得到的相关值绘制出图表吗?是的,它是正相关。因为两个系列的相关只是一个数字。如果你想绘制自相关,你可以使用statsmodels plot_acf函数绘制相关图。嗨,Ricardo,谢谢你的输入,我已经更新了question@user12883347我根据新问题更新了答案Hi Ricardo,谢谢你的输入,我已经更新了
这个question@user12883347我根据新问题更新了答案