Pandas 如何避免一列中多个类别的伪变量陷阱_Pandas_Scikit Learn_Categorical Data_Dummy Variable_One Hot Encoding

Pandas 如何避免一列中多个类别的伪变量陷阱

pandas scikit-learn

Pandas 如何避免一列中多个类别的伪变量陷阱,pandas,scikit-learn,categorical-data,dummy-variable,one-hot-encoding,Pandas,Scikit Learn,Categorical Data,Dummy Variable,One Hot Encoding,我正在研究一个回归问题。我有一个分类列，它有24个分类值。一次性编码显示的伪变量太多。有没有办法避免多重虚拟变量陷阱。请引导我这是我的分类列示例标签编码后谢谢你你可以用这个： df['column'] = df['column'].astype('category').cat.codes 例如： df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column']) 输出： column 0

我正在研究一个回归问题。我有一个分类列，它有24个分类值。一次性编码显示的伪变量太多。有没有办法避免多重虚拟变量陷阱。请引导我这是我的分类列示例

标签编码后

谢谢你

你可以用这个：

df['column'] = df['column'].astype('category').cat.codes

例如：

df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column'])

输出：

太模糊了。请证明谢谢你的回复，我已经上传了原始栏目和编码栏目