Pandas 负相关对分类数据的影响?

Pandas 负相关对分类数据的影响?,pandas,statistics,data-science,feature-engineering,Pandas,Statistics,Data Science,Feature Engineering,PS:我是数据科学的学生,我想知道关联对分类数据的影响 假设我有两个功能,例如票务等级,1,2,3(等级3低于等级1)作为一个类别,座位号作为a、B、C、D、E、F&N(其中N表示缺失数据)作为另一个类别 看起来是这样的: Tclass Seat 1 A 2 C 3 E 2 D 3 N 1 A 1 N Tclass 1.000000 Seat

PS:我是数据科学的学生,我想知道关联对分类数据的影响

假设我有两个功能,例如票务等级,1,2,3(等级3低于等级1)作为一个类别,座位号作为a、B、C、D、E、F&N(其中N表示缺失数据)作为另一个类别

看起来是这样的:

Tclass    Seat
1          A       
2          C
3          E 
2          D
3          N
1          A
1          N
Tclass    1.000000
Seat_N    0.713857
Seat_F    0.013122
Seat_C   -0.042750
Seat_A   -0.202143
Seat_E   -0.225649
Seat_D   -0.265341
Seat_B   -0.353414
我执行的步骤是:

Tclass    Seat
1          A       
2          C
3          E 
2          D
3          N
1          A
1          N
Tclass    1.000000
Seat_N    0.713857
Seat_F    0.013122
Seat_C   -0.042750
Seat_A   -0.202143
Seat_E   -0.225649
Seat_D   -0.265341
Seat_B   -0.353414
  • 我给座位编了一个热编码不
  • 然后我使用df.corr()检查结果数据帧的相关性
相关结果为:

Tclass    Seat
1          A       
2          C
3          E 
2          D
3          N
1          A
1          N
Tclass    1.000000
Seat_N    0.713857
Seat_F    0.013122
Seat_C   -0.042750
Seat_A   -0.202143
Seat_E   -0.225649
Seat_D   -0.265341
Seat_B   -0.353414
我的问题是:

Tclass    Seat
1          A       
2          C
3          E 
2          D
3          N
1          A
1          N
Tclass    1.000000
Seat_N    0.713857
Seat_F    0.013122
Seat_C   -0.042750
Seat_A   -0.202143
Seat_E   -0.225649
Seat_D   -0.265341
Seat_B   -0.353414
  • 在这种情况下,得出的结论是,缺失数据(N)与下层阶级高度相关为什么从相关数据得出这个结论?

  • 得出的结论是座位B与高级票有关,而座位N与低级票有关。 答案是这样的:因为Seat\N具有+ve相关性,这意味着它会产生更高的Tclass值,即数值3。换句话说,下层阶级

  • 如果我们将分类数据关联起来,我们如何才能得到-ve结果?(有人能分享一些关于这个的阅读材料吗?)

  • 如何解释一个分类数据与另一个分类数据的相关性结果?(此问题引出问题2)

  • 如果Tclass是非数字/标签编码的,我是否可以执行关联

  • 参考: