Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/355.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 预测机器学习模型如何将高基数分类特征转化为数值特征?_Python_Machine Learning_Data Science_Data Cleaning_Data Processing - Fatal编程技术网

Python 预测机器学习模型如何将高基数分类特征转化为数值特征?

Python 预测机器学习模型如何将高基数分类特征转化为数值特征?,python,machine-learning,data-science,data-cleaning,data-processing,Python,Machine Learning,Data Science,Data Cleaning,Data Processing,我有两列具有高基数分类值,一列(area_id)具有21878个唯一值,另一列(page_entry)具有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率 列信息: 区域id:会话期间访问的所有位置。(具有网页不同区域的位置代码) page_entry:描述会话的登录页 如何将这两列更改为数字,而不是一个_热编码 谢谢。一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于功能area\u id而言,您可以简单地根据地理位置对其进行分组,例如,来自单个地区(或任何其他聚合级别

我有两列具有高基数分类值,一列(area_id)具有21878个唯一值,另一列(page_entry)具有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率

列信息: 区域id:会话期间访问的所有位置。(具有网页不同区域的位置代码)

page_entry:描述会话的登录页

如何将这两列更改为数字,而不是一个_热编码


谢谢。

一种方法是使用业务规则将您的分类级别分组到更小的存储桶中。对于功能
area\u id
而言,您可以简单地根据地理位置对其进行分组,例如,来自单个地区(或任何其他聚合级别)的所有
area\u id
将替换为单个
id
。类似地,对于
page\u条目
,您可以根据一些属性(如网页的性质,如体育、旅游等)对类似的页面进行分组。通过这种方式,您可以显著减少变量的数量维度


希望这有帮助

也许你可以看看,我自己并没有使用过大部分介绍的技巧,但它可以给你一些深入挖掘的想法:)嗨,@kaggal,如果你认为下面的答案是合适的,我恳请你接受它作为一个验证的答案,因为它有助于其他用户在将来可能会研究这个问题。