Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释
谁能解释一下如何解释Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释,apache-spark,classification,logistic-regression,apache-spark-ml,confusion-matrix,Apache Spark,Classification,Logistic Regression,Apache Spark Ml,Confusion Matrix,谁能解释一下如何解释系数矩阵,截取向量,混淆矩阵 一个多项式logistic回归 根据Spark文件: 通过多项式逻辑回归(softmax)支持多类分类。在多项式logistic回归中,该算法产生K组系数,或一个维数为K×J的矩阵,其中K是结果类的数量,J是特征的数量。如果该算法适合截距项,则截距的长度K向量可用 我使用spark ml 2.3.0打开了一个示例,得到了这个结果 如果我分析我得到的: 系数矩阵的维数为5*11 interceptVector的维度为5 如果是这样,为什么混淆矩阵
系数矩阵
,截取向量
,混淆矩阵
一个多项式logistic回归
根据Spark文件:
通过多项式逻辑回归(softmax)支持多类分类。在多项式logistic回归中,该算法产生K组系数,或一个维数为K×J的矩阵,其中K是结果类的数量,J是特征的数量。如果该算法适合截距项,则截距的长度K向量可用
我使用spark ml 2.3.0打开了一个示例,得到了这个结果
如果我分析我得到的:
系数矩阵的维数为5*11
interceptVector
的维度为5
如果是这样,为什么混淆矩阵的维数为4*4
还有,谁能解释一下系数矩阵
,截取向量
为什么我会得到负系数
如果5是分类后的类数,为什么我在混淆矩阵中得到4行
编辑
我忘了提到我还是机器学习的初学者,我在谷歌上的搜索没有帮助,所以也许我得到了一张赞成票:)关于4x4混淆矩阵:我想当你把数据分成测试和训练时,你的训练集中有5个班,而你的测试集中只有4个班。如果响应变量的分布不平衡,则很容易发生这种情况。
在建模之前,您需要尝试在测试和训练之间执行一些分层分割。如果您正在使用pyspark,您可能会发现此库非常有用:
现在,关于多类逻辑回归的负系数:正如您所提到的,返回的系数矩阵形状是5x11。
Spark通过一对一的方法生成了五个模型。第一个模型对应于一个模型,其中正类是第一个标签,负类由所有其他标签组成。假设该模型的第一个系数为-2.23。为了解释该系数,我们采用-2.23的指数,即(约)0.10。这里的解释是:“第一个特征增加一个单位,我们期望阳性标签的几率降低90%。”