Machine learning 分类或回归算法模型的相关系数或特征重要性

Machine learning 分类或回归算法模型的相关系数或特征重要性,machine-learning,scikit-learn,classification,regression,Machine Learning,Scikit Learn,Classification,Regression,我为机器学习创建了样本数据,只是为了检验分类和回归模型是如何工作的 我的示例数据有50行,其中列为内存,CPU,响应时间。我使用公式内存*2+CPU*0.7生成了响应时间 现在,当我使用这些数据使用不同的算法(如DecisionTree、RandomForest、SVM、NaiveBayes、SGD、LogisticReturnal)生成分类模型时,我从模型中获取kappa和相关系数(model.coef),以及决策树、RandomForest的特征重要性 为内存和CPU返回的系数值与我用来生成

我为机器学习创建了样本数据,只是为了检验分类和回归模型是如何工作的

我的示例数据有50行,其中列为
内存
CPU
响应时间
。我使用公式
内存*2+CPU*0.7
生成了
响应时间

现在,当我使用这些数据使用不同的算法(如DecisionTree、RandomForest、SVM、NaiveBayes、SGD、LogisticReturnal)生成分类模型时,我从模型中获取kappa和相关系数(
model.coef
),以及决策树、RandomForest的特征重要性

内存
CPU
返回的系数值与我用来生成这些响应时间值的公式不太接近。在这种情况下,我无法理解生成的模型是否适合用于预测


对于回归,线性回归确实给了我与我的公式匹配的正确系数。

你给了一个线性公式:
(内存*2+CPU*0.7)
和线性回归,一种学习
y_i=B_0*1+B_1*X_i_1+…+中的
B_j
值的方法B_n*X_i_n
,能够用您期望的系数对其进行建模。这是因为线性回归模型的形式与方程的形式相匹配,所以直接匹配系数是有意义的


对于分类算法,不仅方程的形式与线性方程不匹配,而且问题也不是真正的分类问题。您已经给出了一个明显属于回归问题的示例

感谢您的快速响应。我的错误在于分类模型生成的解释不完整。我通过添加一个条件将响应时间列转换为一个新的true/False列,例如if ResponseTime>200,true或False。并删除了原始响应时间列。所以现在我有了“内存”、“CPU”和“真/假”列,我在上面运行分类算法。对于DecisionTree(例如kappa=1),为内存和CPU生成的系数变成了1和0。对于随机林,内存为0.2,CPU为0.7,Kappa=1
model。coef_u
不给出相关系数。它们给出了特征的最终权重。此外,这只是一个回归问题,而不是分类问题(您没有将数据分类为2个或更多固定类)。我的错误在于对分类模型生成的解释不完整。我通过添加一个条件将响应时间列转换为一个新的true/False列,例如if ResponseTime>200,true或False。并删除了原始响应时间列。所以现在我有了“内存”、“CPU”和“真/假”列,我在上面运行分类算法。对于DecisionTree(例如kappa=1),为内存和CPU生成的系数变成了1和0。对于随机林,内存为0.2,CPU为0.7,Kappa=1