Pandas 如何避免一列中多个类别的伪变量陷阱

Pandas 如何避免一列中多个类别的伪变量陷阱,pandas,scikit-learn,categorical-data,dummy-variable,one-hot-encoding,Pandas,Scikit Learn,Categorical Data,Dummy Variable,One Hot Encoding,我正在研究一个回归问题。我有一个分类列,它有24个分类值。一次性编码显示的伪变量太多。有没有办法避免多重虚拟变量陷阱。请引导我 这是我的分类列示例 标签编码后 谢谢你你可以用这个: df['column'] = df['column'].astype('category').cat.codes 例如: df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column']) 输出: column 0

我正在研究一个回归问题。我有一个分类列,它有24个分类值。一次性编码显示的伪变量太多。有没有办法避免多重虚拟变量陷阱。请引导我 这是我的分类列示例

标签编码后

谢谢你

你可以用这个:

df['column'] = df['column'].astype('category').cat.codes
例如:

df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column'])
输出:

   column
0       0
1       1
2       2
3       3
4       0
5       2
6       0
7       3

太模糊了。请证明谢谢你的回复,我已经上传了原始栏目和编码栏目