Python 如何更好地用代码示例对功能进行热编码

Python 如何更好地用代码示例对功能进行热编码,python,pyspark,analytics,data-science,Python,Pyspark,Analytics,Data Science,我有一个这样的数据框 代码类型 0001 | A 0001 | B 0001 | C 0002 | A 0003 | B 需要将其转换为以下内容 代码| A型| B型| C型 0001 | 1 | 1 | 10002 | 1 | 0 | 00003 | 0 | 1 | 0 提前感谢您您可以使用pandas的get_dummies功能。虚拟变量只是热编码的另一种说法 import pandas as pd df = pd.DataFrame({'CODE': ['0001', '0001', '

我有一个这样的数据框 代码类型 0001 | A 0001 | B 0001 | C 0002 | A 0003 | B

需要将其转换为以下内容 代码| A型| B型| C型 0001 | 1 | 1 | 10002 | 1 | 0 | 00003 | 0 | 1 | 0


提前感谢您

您可以使用pandas的get_dummies功能。虚拟变量只是热编码的另一种说法

import pandas as pd
df = pd.DataFrame({'CODE': ['0001', '0001', '0001', '0002','0003'], 
                   'TYPE': ['A', 'B', 'C', 'A', 'B']})
pd.get_dummies(df, columns=['TYPE'])
columns参数用于指定要进行热编码的列

这将提供:

   CODE  TYPE_A  TYPE_B  TYPE_C
0  0001       1       0       0
1  0001       0       1       0
2  0001       0       0       1
3  0002       1       0       0
4  0003       0       1       0

请参阅更新的答案,您可以添加columns参数