Pandas 负相关对分类数据的影响?
PS:我是数据科学的学生,我想知道关联对分类数据的影响 假设我有两个功能,例如票务等级,1,2,3(等级3低于等级1)作为一个类别,座位号作为a、B、C、D、E、F&N(其中N表示缺失数据)作为另一个类别 看起来是这样的:Pandas 负相关对分类数据的影响?,pandas,statistics,data-science,feature-engineering,Pandas,Statistics,Data Science,Feature Engineering,PS:我是数据科学的学生,我想知道关联对分类数据的影响 假设我有两个功能,例如票务等级,1,2,3(等级3低于等级1)作为一个类别,座位号作为a、B、C、D、E、F&N(其中N表示缺失数据)作为另一个类别 看起来是这样的: Tclass Seat 1 A 2 C 3 E 2 D 3 N 1 A 1 N Tclass 1.000000 Seat
Tclass Seat
1 A
2 C
3 E
2 D
3 N
1 A
1 N
Tclass 1.000000
Seat_N 0.713857
Seat_F 0.013122
Seat_C -0.042750
Seat_A -0.202143
Seat_E -0.225649
Seat_D -0.265341
Seat_B -0.353414
我执行的步骤是:
Tclass Seat
1 A
2 C
3 E
2 D
3 N
1 A
1 N
Tclass 1.000000
Seat_N 0.713857
Seat_F 0.013122
Seat_C -0.042750
Seat_A -0.202143
Seat_E -0.225649
Seat_D -0.265341
Seat_B -0.353414
- 我给座位编了一个热编码不
- 然后我使用df.corr()检查结果数据帧的相关性
Tclass Seat
1 A
2 C
3 E
2 D
3 N
1 A
1 N
Tclass 1.000000
Seat_N 0.713857
Seat_F 0.013122
Seat_C -0.042750
Seat_A -0.202143
Seat_E -0.225649
Seat_D -0.265341
Seat_B -0.353414
我的问题是:
Tclass Seat
1 A
2 C
3 E
2 D
3 N
1 A
1 N
Tclass 1.000000
Seat_N 0.713857
Seat_F 0.013122
Seat_C -0.042750
Seat_A -0.202143
Seat_E -0.225649
Seat_D -0.265341
Seat_B -0.353414