Python 一个热编码,列中有多个标记
我有一个简单的数据集Python 一个热编码,列中有多个标记,python,pandas,dataset,one-hot-encoding,Python,Pandas,Dataset,One Hot Encoding,我有一个简单的数据集 id,question,category,tags,day,quarter,group_id 1,What is your name,Introduction,Introduction,1,3,0 2,What is your name,Introduction,"Introduction, work",1,3,1 现在,如果您看到,在标记列中有多个由逗号分隔的输入。如果我尝试使用pandasget_dummies函数对一个热编码,我将把它作为一个单独的列。但我想为每
id,question,category,tags,day,quarter,group_id
1,What is your name,Introduction,Introduction,1,3,0
2,What is your name,Introduction,"Introduction, work",1,3,1
现在,如果您看到,在标记
列中有多个由逗号分隔的输入。如果我尝试使用pandasget_dummies
函数对一个热编码,我将把它作为一个单独的列。但我想为每个标记创建列。我怎么可能做到这一点呢?我认为需要:
您应该使用panda的dataframe方法的
数据透视表。
下面的代码可能很有用
pivot_table(df, values='D', index=['id','question','category','day','quarter','group_id'],columns=['tags'])
pivot_table(df, values='D', index=['id','question','category','day','quarter','group_id'],columns=['tags'])