Python sklearn编码分层学习功能_Python_Machine Learning_Scikit Learn_Feature Extraction_Categorical Data

Python sklearn编码分层学习功能

python machine-learning scikit-learn

Python sklearn编码分层学习功能,python,machine-learning,scikit-learn,feature-extraction,categorical-data,Python,Machine Learning,Scikit Learn,Feature Extraction,Categorical Data,sklearn是否有一种有效的方法来编码具有许多独特值的层次结构特征这里是上下文：我有一个汽车价格数据集，我想建立一个（回归和随机森林）模型来预测汽车价格。在数据集中，两个特征是分类的：maker和model。例如，制造商包括日产（Nissian）、本田（Honda）等，车型包括天际线（Skyline）、雅阁（Accord）等。。每个模型都属于一个制造者，因此它在这两个特征之间形成了一个层次结构数据集中有50种不同品牌和900种不同型号。我尝试使用sklearn的LabelEncoder和O

sklearn是否有一种有效的方法来编码具有许多独特值的层次结构特征

这里是上下文：我有一个汽车价格数据集，我想建立一个（回归和随机森林）模型来预测汽车价格。在数据集中，两个特征是分类的：maker和model。例如，制造商包括日产（Nissian）、本田（Honda）等，车型包括天际线（Skyline）、雅阁（Accord）等。。每个模型都属于一个制造者，因此它在这两个特征之间形成了一个层次结构

数据集中有50种不同品牌和900种不同型号。我尝试使用sklearn的LabelEncoder和OneHotEncoder对这两个特性进行编码，这会产生一个非常大的稀疏矩阵，每行有900多个虚拟变量。显然，这确实使用了maker和model之间的层次结构，这将导致学习模型效率低下。有没有更好的方法通过sklearn对这两个特性进行编码