Scikit learn 随机森林回归低分_Scikit Learn_Regression_Random Forest

Scikit learn 随机森林回归低分

scikit-learn

Scikit learn 随机森林回归低分,scikit-learn,regression,random-forest,Scikit Learn,Regression,Random Forest,我试图用随机森林回归来预测汽车的价格。我从cars.com获取数据，清理数据，保留一些特征（年份、里程、外观颜色等），而分类特征似乎与算法不匹配，因此我为分类特征设置了虚拟变量（因为只有数字特征与树匹配），我的分数很低最终数据如下所示： Year Model Price Mileage Engine CityFuelEconomy HighwayFuelEconomy ExteriorColor 2013 2 6900 37100 3.0

我试图用随机森林回归来预测汽车的价格。我从cars.com获取数据，清理数据，保留一些特征（年份、里程、外观颜色等），而分类特征似乎与算法不匹配，因此我为分类特征设置了虚拟变量（因为只有数字特征与树匹配），我的分数很低

最终数据如下所示：

Year    Model   Price   Mileage Engine  CityFuelEconomy HighwayFuelEconomy  ExteriorColor
2013     2      6900    37100    3.0          20                30               1

默认情况下，我执行了随机林，还通过GridSearch进行了参数调整，这两种结果都不理想

#by default
In:   from sklearn.metrics import explained_variance_score
      explained_variance_score(train_y, model.predict(train_x))
Out:  0.5569482176630063

In:   model.score(test_x, test_y)
Out:  0.5299303064708601

Train MAE: 993.199536787152
Test MAE: 1094.8346295258416

#GridSearch
Best Score is: 0.5305298726822617
Best Parameters are: {'criterion': 'mse', 'max_depth': 15, 'max_features': 3,
                        'min_samples_leaf': 3, 'min_samples_split': 7, 'n_estimators': 500}

forest.score(X_val, y_val)
Score: 0.56

我是机器学习新手，我不知道哪种算法更适合哪种类型的数据集，有人能帮我改进这一点吗？或者可能发生的原因是什么？谢谢

这些数据有多少样本？嗨，1000，700个训练集，300个测试，@YOLOThis很难回答，试一下其他模型，看看你是否得到不同的结果。