Python 在各自的热编码列中填充分类数据的值

Python 在各自的热编码列中填充分类数据的值,python,pandas,dataframe,pivot,one-hot-encoding,Python,Pandas,Dataframe,Pivot,One Hot Encoding,我有一个csv文件,它有100个列和行。 有两列是我感兴趣的,基于这一点,我需要在csv文件中创建新列。 例子: 我有以下感兴趣的专栏, input.csv count description 1 Good 2 Medium 2 Best 1 Worst 2 Worst 1 Medium 9 Good

我有一个csv文件,它有100个列和行。 有两列是我感兴趣的,基于这一点,我需要在csv文件中创建新列。 例子: 我有以下感兴趣的专栏, input.csv

 count  description    
    1   Good        
    2   Medium          
    2   Best        
    1   Worst       
    2   Worst       
    1   Medium      
    9   Good    
我期望的产出, output.csv

 count  description    Good  Medium  Best  Worst
    1   Good            1     0       0      0
    2   Medium          0     2       0      0
    2   Best            0     0       2      0
    1   Worst           0     0       0      1
    2   Worst           0     0       0      1
    1   Medium          0     1       0      0
    9   Good            9     0       0      0
在上面的csv表中,基于“计数”和“描述”的值。 我正在创建新的列Good、Medium、Best、Worst(来自描述值),并将count和put null中的值填充到该行的不可用值中。
我尝试比较列并映射值,但无法将值正确地放入新列中。

一种方法是使用创建虚拟列,并使用
df['count]
来获得所需的输出:

d = pd.get_dummies(df.description) 
df.assign(**d.multiply(df['count'], axis=0))

    count description  Best  Good  Medium  Worst
0      1        Good     0     1       0      0
1      2      Medium     0     0       2      0
2      2        Best     2     0       0      0
3      1       Worst     0     0       0      1
4      2       Worst     0     0       0      2
5      1      Medium     0     0       1      0
6      9        Good     0     9       0      0

可以旋转并添加原始帧:

f = df.pivot(columns='description', values='count').fillna(value=0, downcast='infer')
df[['count', 'description']].merge(f, left_index=True, right_index=True)
其结果是:

   count description  Best  Good  Medium  Worst
0      1        Good     0     1       0      0
1      2      Medium     0     0       2      0
2      2        Best     2     0       0      0
3      1       Worst     0     0       0      1
4      2       Worst     0     0       0      2
5      1      Medium     0     0       1      0
6      9        Good     0     9       0      0
str.get\u假人
为了提高性能和简洁性,请将
str.get_dummies
与广播的numpy乘法结合使用

v = df['description'].str.get_dummies()
df.join(pd.DataFrame(
    v.values * df['count'].values[:, None], columns=v.columns))


   count description  Best  Good  Medium  Worst
0      1        Good     0     1       0      0
1      2      Medium     0     0       2      0
2      2        Best     2     0       0      0
3      1       Worst     0     0       0      1
4      2       Worst     0     0       0      2
5      1      Medium     0     0       1      0
6      9        Good     0     9       0      0
我现在看到这是一个稍微不同的版本,但希望如此 广播方式的差异请原谅:-)


pivot
fillna
或者,OP的
pivot
解决方案的修改版本:

df.join(df.reset_index()
          .pivot(index='index', columns='description', values='count')
          .fillna(0, downcast='infer'))

   count description  Best  Good  Medium  Worst
0      1        Good     0     1       0      0
1      2      Medium     0     0       2      0
2      2        Best     2     0       0      0
3      1       Worst     0     0       0      1
4      2       Worst     0     0       0      2
5      1      Medium     0     0       1      0
6      9        Good     0     9       0      0

谢谢你的上述回答。 我也试过,解决办法如下

import pandas as pd
df = pd.read_csv('/input.csv')
res = df.pivot(index='index', columns='description', values='count')
res.to_csv('/out.csv',',',dtype='unicode8')
res1 = res.replace('NaN', '0', regex=True)
res1.to_csv('/out1.csv',',',dtype='unicode8')
谢谢, 圣达