Python 如何计算熊猫数据帧相关函数中使用的非NA/null值的数量?
根据pandas.DataFrame.corr的文档,它将计算列的成对相关性,不包括NA/null值。Python 如何计算熊猫数据帧相关函数中使用的非NA/null值的数量?,python,pandas,correlation,Python,Pandas,Correlation,根据pandas.DataFrame.corr的文档,它将计算列的成对相关性,不包括NA/null值。 计算用于计算每个相关性值的非NA/null值的数量的最简单方法是什么?相关性要求两个值都不为null。我们可以使用广播对所有列组合执行成对检查。结果是一个矩阵,其中包含相关性计算中使用的有效行数 import numpy as np import pandas as pd # Sample data np.random.seed(42) df = pd.DataFrame(np.random
计算用于计算每个相关性值的非NA/null值的数量的最简单方法是什么?相关性要求两个值都不为null。我们可以使用广播对所有列组合执行成对检查。结果是一个矩阵,其中包含相关性计算中使用的有效行数
import numpy as np
import pandas as pd
# Sample data
np.random.seed(42)
df = pd.DataFrame(np.random.choice(list(range(50)) + [np.NaN], (1000,6)),
columns=list('abcdef'))
arr = df.notnull().to_numpy().T
pd.DataFrame((arr & arr[:, None]).sum(2), index=df.columns, columns=df.columns)
# a b c d e f
#a 978 960 961 958 957 958
#b 960 982 964 962 959 960
#c 961 964 982 963 959 960
#d 958 962 963 980 957 958
#e 957 959 959 957 977 955
#f 958 960 960 958 955 978