Python 对数据帧进行不同于热数据帧的编码_Python_Pandas_Dataframe_Sparse Matrix_One Hot Encoding

Python 对数据帧进行不同于热数据帧的编码

python pandas dataframe

Python 对数据帧进行不同于热数据帧的编码,python,pandas,dataframe,sparse-matrix,one-hot-encoding,Python,Pandas,Dataframe,Sparse Matrix,One Hot Encoding,假设我有一个类似的df，它注册了一个电脑游戏中6名玩家（3v3）中的每一位选择的可玩角色 data = {'Pick_1_team1': ['A','A','A','B','C'], 'Pick_2_team1': ['D','D','E','F','F'], 'Pick_3_team1': ['G','G','A','M','O'], 'Pick_1_team2': ['Q','Q','S','S','A'], 'Pick_2_t

假设我有一个类似的df，它注册了一个电脑游戏中6名玩家（3v3）中的每一位选择的可玩角色

data = {'Pick_1_team1': ['A','A','A','B','C'],
        'Pick_2_team1': ['D','D','E','F','F'],
        'Pick_3_team1': ['G','G','A','M','O'],
        'Pick_1_team2': ['Q','Q','S','S','A'],
        'Pick_2_team2': ['V','W','X','A','B'],
        'Pick_3_team2': ['R','X','W','W','R']}

df = pd.DataFrame(data)
df_enc = pd.get_dummies(df)

当我使用panda的get_假人时，我将获得具有以下结构的稀疏df（示例，而不是示例df中的实际编码）

对于两支球队，每个选秀时段都有每个可能的选秀（A-Z）

| P1_T1_A | P1_T1_B | P1_T1_C | ... | P2_T1_A | ... | P3_T1_Z | ... | P1_T2_A | P1_T2_B | ... | P3_T2_Z |
|---------|---------|---------|-----|---------|-----|---------|-----|---------|---------|-----|---------|
| 0       | 0       | 1       | ... | 0       | ... | 0       | ... | 1       | 0       | ... | 1       |
| 1       | 0       | 0       | ... | 0       | ... | 0       | ... | 0       | 1       | ... | 1       |
| 1       | 0       | 0       | ... | 0       | ... | 0       | ... | 0       | 0       | ... | 0       |

这是可以的，但是如果你考虑一个更大的输入空间（有150个+可能的选择），表增长非常大。为了使其更易于管理，我考虑以某种方式将其编码为以下格式：

每个类别（角色）一列x每个团队2列，如果该角色被选中，则为1列，否则为0列

| T1_A | T1_B | T1_C | ... | T1_Z | ... | T2_A | T2_B | ... | T2_Z |
|------|------|------|-----|------|-----|------|------|-----|------|
| 0    | 0    | 1    | ... | 0    | ... | 1    | 1    | ... | 1    |
| 1    | 1    | 1    | ... | 0    | ... | 0    | 0    | ... | 1    |
| 1    | 0    | 0    | ... | 0    | ... | 0    | 0    | ... | 0    |

这会将特征编号限制为精选数量x团队数量（26个字母*2个团队），而不是可能的精选数量x精选数量x团队数量（26个字母*3个精选*2个团队） panda可以通过任何内置功能实现这一点吗？如果不是，最简单的方法是什么

感谢您的帮助！

谢谢。

您可以首先选择一个团队，使用

过滤器，堆栈数据并使用str.get_dummies
，然后选择groupby
级别=0（原始df中的行）和sum
<代码>将_前缀添加到concat
之前的列，如：
df_ = pd.concat([
            (df.filter(like=f'Pick_{i}').stack()
               .str.get_dummies()
               .groupby(level=0).sum()
               .add_prefix(f'T{i}_')
            ) for i in [1,2] ], 
            axis=1)
print (df_)
   T1_A  T1_B  T1_C  T1_D  T1_E  T1_F  T1_G  T1_M  T1_O  T2_A  T2_B  T2_Q  \
0     1     0     0     1     0     0     1     0     0     0     0     1   
1     1     0     0     1     0     0     1     0     0     0     0     1   
2     2     0     0     0     1     0     0     0     0     0     0     0   
3     0     1     0     0     0     1     0     1     0     1     0     0   
4     0     0     1     0     0     1     0     0     1     1     1     0   

   T2_R  T2_S  T2_V  T2_W  T2_X  
0     1     0     1     0     0  
1     0     0     0     1     1  
2     0     1     0     1     1  
3     0     1     0     1     0  
4     1     0     0     0     0  

如果只需要1,0
值，则将get_dummies
与聚合max
一起使用；如果需要计数值，则使用sum
：
df_enc = (pd.get_dummies(df.rename(columns=lambda x:x.split('_', 2)[-1].replace('team','T')))
            .max(axis=1, level=0)
            .sort_index(axis=1, level=0))
print (df_enc)
   T1_A  T1_B  T1_C  T1_D  T1_E  T1_F  T1_G  T1_M  T1_O  T2_A  T2_B  T2_Q  \
0     1     0     0     1     0     0     1     0     0     0     0     1   
1     1     0     0     1     0     0     1     0     0     0     0     1   
2     1     0     0     0     1     0     0     0     0     0     0     0   
3     0     1     0     0     0     1     0     1     0     1     0     0   
4     0     0     1     0     0     1     0     0     1     1     1     0   

   T2_R  T2_S  T2_V  T2_W  T2_X  
0     1     0     1     0     0  
1     0     0     0     1     1  
2     0     1     0     1     1  
3     0     1     0     1     0  
4     1     0     0     0     0  

请详细说明原始数据中的团队在哪里？这里只有选择和信件。谢谢，我试过了。基本上，one.hot的工作方式是将每个列分成列+可能的类别。我想把它重新排列成每一个可能的类别一列（x2个团队），如果这个角色被选中，则用1填充。@jezrael没什么错！我会接受这两种解决方案，除非它不让我接受。我能够将Ben.T解推广到不同的df。可能是因为我不习惯熊猫。@jcf-好吧，我很惊讶，谢谢