Python 预测机器学习模型如何将高基数分类特征转化为数值特征?
我有两列具有高基数分类值,一列(area_id)具有21878个唯一值,另一列(page_entry)具有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率 列信息: 区域id:会话期间访问的所有位置。(具有网页不同区域的位置代码) page_entry:描述会话的登录页 如何将这两列更改为数字,而不是一个_热编码Python 预测机器学习模型如何将高基数分类特征转化为数值特征?,python,machine-learning,data-science,data-cleaning,data-processing,Python,Machine Learning,Data Science,Data Cleaning,Data Processing,我有两列具有高基数分类值,一列(area_id)具有21878个唯一值,另一列(page_entry)具有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率 列信息: 区域id:会话期间访问的所有位置。(具有网页不同区域的位置代码) page_entry:描述会话的登录页 如何将这两列更改为数字,而不是一个_热编码 谢谢。一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于功能area\u id而言,您可以简单地根据地理位置对其进行分组,例如,来自单个地区(或任何其他聚合级别
谢谢。一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于功能
area\u id
而言,您可以简单地根据地理位置对其进行分组,例如,来自单个地区(或任何其他聚合级别)的所有area\u id
将替换为单个id
。类似地,对于page\u条目
,您可以根据一些属性(如网页的性质,如体育、旅游等)对类似的页面进行分组。通过这种方式,您可以显著减少变量的数量维度
希望这有帮助 也许你可以看看,我自己并没有使用过大部分介绍的技巧,但它可以给你一些深入挖掘的想法:)嗨,@kaggal,如果你认为下面的答案是合适的,我恳请你接受它作为一个验证的答案,因为它有助于其他用户在将来可能会研究这个问题。