Python 大熊猫与统计显著性回归的相关性:(nan,1.0)
我想检查数据帧中多个列之间的相关性和相关性的重要性 通过以下数据帧,我构建了以下关联表:Python 大熊猫与统计显著性回归的相关性:(nan,1.0),python,pandas,scipy,pearson-correlation,Python,Pandas,Scipy,Pearson Correlation,我想检查数据帧中多个列之间的相关性和相关性的重要性 通过以下数据帧,我构建了以下关联表: ARI Flesch Kincaid time VIX_close FEDFUNDS -2.090000 NaN -3.400000 2016-02-04 20.239333 0.345333 16.060272 38.489788 14.355616 2016-02-04 20.239333 0.345333 当
ARI Flesch Kincaid time VIX_close FEDFUNDS
-2.090000 NaN -3.400000 2016-02-04 20.239333 0.345333
16.060272 38.489788 14.355616 2016-02-04 20.239333 0.345333
当我使用以下代码运行Kincaid和其他变量时,一切正常:
stats.pearsonr(master.Kincaid,master.VIX_close)
但是,当我为其他变量运行类似代码时:
stats.pearsonr(master.ARI,master.VIX_close)
我得到以下输出:
(nan, 1.0)
我知道如果ARI的方差可以理解,那么这个输出是可以理解的,但事实并非如此——ARI与Kincaid非常相似
附加问题:是否有必要一次性对整个相关性表进行显著性测试?提前感谢。熊猫有一个内置的相关函数,可以针对整个数据帧运行 也许只要运行master.corr() 计算所有组合:
import itertools
from scipy.stats import ttest_ind, pearsonr
columns_combinations = [c for c in itertools.combinations(master.columns,2)]
pearson_calc_df = pd.DataFrame([pearsonr(master[c[0]], master[c[1]]) for c in columns_combinations],
index=columns_combinations)
ttest_calc_df = pd.DataFrame([ttest_ind(master[c[0]], master[c[1]]) for c in columns_combinations],
index=columns_combinations)
由于方差为零,因此相关性上仍然存在NaN。?只有ARI和Kincaid在这里有任何变化,所以没有其他变化。我的意思是,您只显示了2行数据,大多数数据都具有相同的值,因此不确定您期望的是什么。如果你有更多的数据,你应该显示出来。如果你有1000行,不要显示1000行,但可能会显示5到10行数据。数据确实有所不同,我只放了两行来显示我的数据帧的格式…谢谢,这就是我用来制作相关表的东西,但是有没有办法测试重要性呢?@GrahamStreich请看这个