Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/278.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python sklearn编码分层学习功能_Python_Machine Learning_Scikit Learn_Feature Extraction_Categorical Data - Fatal编程技术网

Python sklearn编码分层学习功能

Python sklearn编码分层学习功能,python,machine-learning,scikit-learn,feature-extraction,categorical-data,Python,Machine Learning,Scikit Learn,Feature Extraction,Categorical Data,sklearn是否有一种有效的方法来编码具有许多独特值的层次结构特征 这里是上下文:我有一个汽车价格数据集,我想建立一个(回归和随机森林)模型来预测汽车价格。在数据集中,两个特征是分类的:maker和model。例如,制造商包括日产(Nissian)、本田(Honda)等,车型包括天际线(Skyline)、雅阁(Accord)等。。每个模型都属于一个制造者,因此它在这两个特征之间形成了一个层次结构 数据集中有50种不同品牌和900种不同型号。我尝试使用sklearn的LabelEncoder和O

sklearn是否有一种有效的方法来编码具有许多独特值的层次结构特征

这里是上下文:我有一个汽车价格数据集,我想建立一个(回归和随机森林)模型来预测汽车价格。在数据集中,两个特征是分类的:maker和model。例如,制造商包括日产(Nissian)、本田(Honda)等,车型包括天际线(Skyline)、雅阁(Accord)等。。每个模型都属于一个制造者,因此它在这两个特征之间形成了一个层次结构

数据集中有50种不同品牌和900种不同型号。我尝试使用sklearn的LabelEncoder和OneHotEncoder对这两个特性进行编码,这会产生一个非常大的稀疏矩阵,每行有900多个虚拟变量。显然,这确实使用了maker和model之间的层次结构,这将导致学习模型效率低下。有没有更好的方法通过sklearn对这两个特性进行编码