Python 如何更好地用代码示例对功能进行热编码
我有一个这样的数据框 代码类型 0001 | A 0001 | B 0001 | C 0002 | A 0003 | B 需要将其转换为以下内容 代码| A型| B型| C型 0001 | 1 | 1 | 10002 | 1 | 0 | 00003 | 0 | 1 | 0Python 如何更好地用代码示例对功能进行热编码,python,pyspark,analytics,data-science,Python,Pyspark,Analytics,Data Science,我有一个这样的数据框 代码类型 0001 | A 0001 | B 0001 | C 0002 | A 0003 | B 需要将其转换为以下内容 代码| A型| B型| C型 0001 | 1 | 1 | 10002 | 1 | 0 | 00003 | 0 | 1 | 0 提前感谢您您可以使用pandas的get_dummies功能。虚拟变量只是热编码的另一种说法 import pandas as pd df = pd.DataFrame({'CODE': ['0001', '0001', '
提前感谢您您可以使用pandas的get_dummies功能。虚拟变量只是热编码的另一种说法
import pandas as pd
df = pd.DataFrame({'CODE': ['0001', '0001', '0001', '0002','0003'],
'TYPE': ['A', 'B', 'C', 'A', 'B']})
pd.get_dummies(df, columns=['TYPE'])
columns参数用于指定要进行热编码的列
这将提供:
CODE TYPE_A TYPE_B TYPE_C
0 0001 1 0 0
1 0001 0 1 0
2 0001 0 0 1
3 0002 1 0 0
4 0003 0 1 0
请参阅更新的答案,您可以添加columns参数