python中随机森林的数据准备和预测建模
我正在使用分类输出(通过/失败:二进制1或0)和大约200个特性进行预测建模练习。我有大约350K个这样的培训示例,但如果需要,我可以增加数据集的大小。以下是我遇到的几个问题: 1-我正在处理严重失衡的班级。在这些350K示例中,只有2K被标记为“失败”(即分类输出=1)。我如何解释这一点?我知道有几种技术,例如使用引导向上采样 2-我的大部分特征(~95%)都是分类的(例如城市、语言等),每个特征的级别不到5-6级。我是否需要将它们转换为功能每个级别的二进制数据?例如,如果功能“city”与纽约、巴黎和巴塞罗那有3个级别,那么我可以将其转换为3个二元功能:city_New_York、city_Paris和city_Barcelona 3-选择模型本身:我正在考虑一些,例如SVM、K-邻域、决策树、随机林、逻辑回归,但我的猜测是,随机林将适用于此,因为有大量分类特征。有什么建议吗 4-如果我使用随机林,我是否需要(a)对连续变量进行功能缩放(我猜不是),(b)将连续变量更改为二进制变量,如上面问题2所述(我猜不是),(c)说明我的严重不平衡类,(d)删除缺失值 提前感谢您的回答python中随机森林的数据准备和预测建模,python,machine-learning,prediction,random-forest,Python,Machine Learning,Prediction,Random Forest,我正在使用分类输出(通过/失败:二进制1或0)和大约200个特性进行预测建模练习。我有大约350K个这样的培训示例,但如果需要,我可以增加数据集的大小。以下是我遇到的几个问题: 1-我正在处理严重失衡的班级。在这些350K示例中,只有2K被标记为“失败”(即分类输出=1)。我如何解释这一点?我知道有几种技术,例如使用引导向上采样 2-我的大部分特征(~95%)都是分类的(例如城市、语言等),每个特征的级别不到5-6级。我是否需要将它们转换为功能每个级别的二进制数据?例如,如果功能“city”与纽
为什么要用python标记这个?