如何在python中计算二进制变量之间的相关性?

如何在python中计算二进制变量之间的相关性?,python,pandas,statistics,correlation,Python,Pandas,Statistics,Correlation,两个二进制变量(x和y)在一个数据帧中形成了多个日期的两列。我想计算x和y之间的相关分数,量化x=1和y=1的相关程度(x=0和y=0) 什么样的相关性定义是合适的 有内置的功能吗 |第| x | y天| 0 | 1 | 1 1 | 1 | 0 2 | 0 | 0 3 | 1 | 1 说明:这是两个分类。比如,x=早餐吃鸡蛋(0或1),y=头痛(0或1)。有几天x和y的数据,我想看看生蛋和头痛有多“密切相关”。我知道皮尔逊的相关性在这里不适用。可以使用什么?本例中使用的相关度

两个二进制变量(x和y)在一个数据帧中形成了多个日期的两列。我想计算x和y之间的相关分数,量化x=1和y=1的相关程度(x=0和y=0)

  • 什么样的相关性定义是合适的
  • 有内置的功能吗


    |第| x | y天|

    0  | 1 | 1
    
    1  | 1 | 0
    
    2  | 0 | 0
    
    3  | 1 | 1
    

  • 说明:这是两个分类。比如,x=早餐吃鸡蛋(0或1),y=头痛(0或1)。有几天x和y的数据,我想看看生蛋和头痛有多“密切相关”。我知道皮尔逊的相关性在这里不适用。可以使用什么?

    本例中使用的相关度量是皮尔逊的rho。定义为两个二元变量,也称为皮尔逊相关系数

    rho = (n11*n00 -  n10*n01)/sqrt(n11.n10.n01.n00)
    where 
    n11 (n00) = number of rows with x=1(0) and y=1(0) etc. 
    

    如果这些变量是分类变量,则无法计算相关性。
    df.x.corr(df.y)
    这些是二进制变量的可能重复项对于x和y都是1>0和0<1,或者您是否将两个类别编码为0和1?如果是后者,则不能执行关联,但可以拟合某种分类算法,并在拟合后读取其参数。这是两个类别。比如,x=早餐吃鸡蛋(0或1),y=头痛(0或1)。有几天x和y的数据,我想看看生蛋和头痛有多“密切相关”。我知道皮尔逊的相关性在这里不适用。可以使用什么?