Python 预测机器学习模型如何将高基数分类特征转化为数值特征？_Python_Machine Learning_Data Science_Data Cleaning_Data Processing

Python 预测机器学习模型如何将高基数分类特征转化为数值特征？

python machine-learning

Python 预测机器学习模型如何将高基数分类特征转化为数值特征？,python,machine-learning,data-science,data-cleaning,data-processing,Python,Machine Learning,Data Science,Data Cleaning,Data Processing,我有两列具有高基数分类值，一列（area_id）具有21878个唯一值，另一列（page_entry）具有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率列信息：区域id：会话期间访问的所有位置。（具有网页不同区域的位置代码） page_entry：描述会话的登录页如何将这两列更改为数字，而不是一个_热编码谢谢。一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于功能area\u id而言，您可以简单地根据地理位置对其进行分组，例如，来自单个地区（或任何其他聚合级别

我有两列具有高基数分类值，一列（area_id）具有21878个唯一值，另一列（page_entry）具有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率

列信息：区域id：会话期间访问的所有位置。（具有网页不同区域的位置代码）

page_entry：描述会话的登录页

如何将这两列更改为数字，而不是一个_热编码

谢谢。

一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于功能

area\u id

而言，您可以简单地根据地理位置对其进行分组，例如，来自单个地区（或任何其他聚合级别）的所有

area\u id

将替换为单个

id

。类似地，对于

page\u条目

，您可以根据一些属性（如网页的性质，如体育、旅游等）对类似的页面进行分组。通过这种方式，您可以显著减少变量的数量维度

希望这有帮助

也许你可以看看，我自己并没有使用过大部分介绍的技巧，但它可以给你一些深入挖掘的想法：）嗨，@kaggal，如果你认为下面的答案是合适的，我恳请你接受它作为一个验证的答案，因为它有助于其他用户在将来可能会研究这个问题。