Python 大熊猫与统计显著性回归的相关性：（nan，1.0）_Python_Pandas_Scipy_Pearson Correlation

Python 大熊猫与统计显著性回归的相关性：（nan，1.0）

python pandas

Python 大熊猫与统计显著性回归的相关性：（nan，1.0）,python,pandas,scipy,pearson-correlation,Python,Pandas,Scipy,Pearson Correlation,我想检查数据帧中多个列之间的相关性和相关性的重要性通过以下数据帧，我构建了以下关联表： ARI Flesch Kincaid time VIX_close FEDFUNDS -2.090000 NaN -3.400000 2016-02-04 20.239333 0.345333 16.060272 38.489788 14.355616 2016-02-04 20.239333 0.345333 当

我想检查数据帧中多个列之间的相关性和相关性的重要性

通过以下数据帧，我构建了以下关联表：

      ARI     Flesch    Kincaid       time  VIX_close  FEDFUNDS  
-2.090000        NaN  -3.400000 2016-02-04  20.239333  0.345333      
16.060272  38.489788  14.355616 2016-02-04  20.239333  0.345333

当我使用以下代码运行Kincaid和其他变量时，一切正常：

stats.pearsonr(master.Kincaid,master.VIX_close)

但是，当我为其他变量运行类似代码时：

stats.pearsonr(master.ARI,master.VIX_close)

我得到以下输出：

(nan, 1.0)

我知道如果ARI的方差可以理解，那么这个输出是可以理解的，但事实并非如此——ARI与Kincaid非常相似

附加问题：是否有必要一次性对整个相关性表进行显著性测试？提前感谢。

熊猫有一个内置的相关函数，可以针对整个数据帧运行

也许只要运行master.corr（）

计算所有组合：

import itertools
from scipy.stats import ttest_ind, pearsonr
columns_combinations = [c for c in itertools.combinations(master.columns,2)]
pearson_calc_df = pd.DataFrame([pearsonr(master[c[0]], master[c[1]]) for c in columns_combinations], 
                               index=columns_combinations)
ttest_calc_df = pd.DataFrame([ttest_ind(master[c[0]], master[c[1]]) for c in columns_combinations], 
                              index=columns_combinations)

由于方差为零，因此相关性上仍然存在NaN。

？只有ARI和Kincaid在这里有任何变化，所以没有其他变化。我的意思是，您只显示了2行数据，大多数数据都具有相同的值，因此不确定您期望的是什么。如果你有更多的数据，你应该显示出来。如果你有1000行，不要显示1000行，但可能会显示5到10行数据。数据确实有所不同，我只放了两行来显示我的数据帧的格式…谢谢，这就是我用来制作相关表的东西，但是有没有办法测试重要性呢？@GrahamStreich请看这个