Python sklearn管道中的持久标签编码_Python_Pandas_Encoding_Scikit Learn_Pipeline

Python sklearn管道中的持久标签编码

python pandas encoding scikit-learn

Python sklearn管道中的持久标签编码,python,pandas,encoding,scikit-learn,pipeline,Python,Pandas,Encoding,Scikit Learn,Pipeline,我怎样才能将同一个字符串持久地编码到同一列？提出一种处理具有多个分类值的数据帧的好方法。但是，我不确定这种情况是否正确持续（在pickle中），是否会对新传入的数据再次应用相同的标签到目前为止，我直接使用熊猫，并通过类别值的.cat.code获得标签。但现在我需要将标签编码集成到管道中，以处理新传入的数据你想要什么 le = LabelEncoder() for col in df.select_dtypes([], ['object'].columns: df[col] = le

我怎样才能将同一个字符串持久地编码到同一列？提出一种处理具有多个分类值的数据帧的好方法。但是，我不确定这种情况是否正确持续（在pickle中），是否会对新传入的数据再次应用相同的标签

到目前为止，我直接使用熊猫，并通过类别值的

.cat.code

获得标签。但现在我需要将标签编码集成到管道中，以处理新传入的数据

你想要什么

le = LabelEncoder()
for col in df.select_dtypes([], ['object'].columns:
    df[col] = le.fit_transform(df[col])

或者建议的

多列Labelencoder解决方案满足我的任务吗？
似乎已经针对单列情况进行了处理
因此，我使用了前面提到的多列解决方案，该解决方案运行良好。遇到了相同的问题，并且能够找到解决方法，如果我们可以保存编码器实例信息，我们可以重用它以产生预期的输出。
下面的链接提供了详细的答案：
这个答案意味着您需要在推断时将整个数据帧存储在内存中。“远非理想。”我理解玛贝尔。你会提出什么样的解决方案？我已经回答了这个问题，请留作参考