Python sklearn管道中的持久标签编码

Python sklearn管道中的持久标签编码,python,pandas,encoding,scikit-learn,pipeline,Python,Pandas,Encoding,Scikit Learn,Pipeline,我怎样才能将同一个字符串持久地编码到同一列? 提出一种处理具有多个分类值的数据帧的好方法。但是,我不确定这种情况是否正确持续(在pickle中),是否会对新传入的数据再次应用相同的标签 到目前为止,我直接使用熊猫,并通过类别值的.cat.code获得标签。但现在我需要将标签编码集成到管道中,以处理新传入的数据 你想要什么 le = LabelEncoder() for col in df.select_dtypes([], ['object'].columns: df[col] = le

我怎样才能将同一个字符串持久地编码到同一列? 提出一种处理具有多个分类值的数据帧的好方法。但是,我不确定这种情况是否正确持续(在pickle中),是否会对新传入的数据再次应用相同的标签

到目前为止,我直接使用熊猫,并通过类别值的
.cat.code
获得标签。但现在我需要将标签编码集成到管道中,以处理新传入的数据

你想要什么

le = LabelEncoder()
for col in df.select_dtypes([], ['object'].columns:
    df[col] = le.fit_transform(df[col])

或者建议的
多列Labelencoder解决方案满足我的任务吗?

似乎已经针对单列情况进行了处理


因此,我使用了前面提到的多列解决方案,该解决方案运行良好。

遇到了相同的问题,并且能够找到解决方法,如果我们可以保存编码器实例信息,我们可以重用它以产生预期的输出。 下面的链接提供了详细的答案:

这个答案意味着您需要在推断时将整个数据帧存储在内存中。“远非理想。”我理解玛贝尔。你会提出什么样的解决方案?我已经回答了这个问题,请留作参考