Pandas 如何避免一列中多个类别的伪变量陷阱
我正在研究一个回归问题。我有一个分类列,它有24个分类值。一次性编码显示的伪变量太多。有没有办法避免多重虚拟变量陷阱。请引导我 这是我的分类列示例 标签编码后 谢谢你你可以用这个:Pandas 如何避免一列中多个类别的伪变量陷阱,pandas,scikit-learn,categorical-data,dummy-variable,one-hot-encoding,Pandas,Scikit Learn,Categorical Data,Dummy Variable,One Hot Encoding,我正在研究一个回归问题。我有一个分类列,它有24个分类值。一次性编码显示的伪变量太多。有没有办法避免多重虚拟变量陷阱。请引导我 这是我的分类列示例 标签编码后 谢谢你你可以用这个: df['column'] = df['column'].astype('category').cat.codes 例如: df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column']) 输出: column 0
df['column'] = df['column'].astype('category').cat.codes
例如:
df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column'])
输出:
column
0 0
1 1
2 2
3 3
4 0
5 2
6 0
7 3
太模糊了。请证明谢谢你的回复,我已经上传了原始栏目和编码栏目