Python sklearn管道中的持久标签编码
我怎样才能将同一个字符串持久地编码到同一列? 提出一种处理具有多个分类值的数据帧的好方法。但是,我不确定这种情况是否正确持续(在pickle中),是否会对新传入的数据再次应用相同的标签 到目前为止,我直接使用熊猫,并通过类别值的Python sklearn管道中的持久标签编码,python,pandas,encoding,scikit-learn,pipeline,Python,Pandas,Encoding,Scikit Learn,Pipeline,我怎样才能将同一个字符串持久地编码到同一列? 提出一种处理具有多个分类值的数据帧的好方法。但是,我不确定这种情况是否正确持续(在pickle中),是否会对新传入的数据再次应用相同的标签 到目前为止,我直接使用熊猫,并通过类别值的.cat.code获得标签。但现在我需要将标签编码集成到管道中,以处理新传入的数据 你想要什么 le = LabelEncoder() for col in df.select_dtypes([], ['object'].columns: df[col] = le
.cat.code
获得标签。但现在我需要将标签编码集成到管道中,以处理新传入的数据
你想要什么
le = LabelEncoder()
for col in df.select_dtypes([], ['object'].columns:
df[col] = le.fit_transform(df[col])
或者建议的
多列Labelencoder解决方案满足我的任务吗?似乎已经针对单列情况进行了处理
因此,我使用了前面提到的多列解决方案,该解决方案运行良好。遇到了相同的问题,并且能够找到解决方法,如果我们可以保存编码器实例信息,我们可以重用它以产生预期的输出。
下面的链接提供了详细的答案:
这个答案意味着您需要在推断时将整个数据帧存储在内存中。“远非理想。”我理解玛贝尔。你会提出什么样的解决方案?我已经回答了这个问题,请留作参考