Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释_Apache Spark_Classification_Logistic Regression_Apache Spark Ml_Confusion Matrix

Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释

apache-spark

Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释,apache-spark,classification,logistic-regression,apache-spark-ml,confusion-matrix,Apache Spark,Classification,Logistic Regression,Apache Spark Ml,Confusion Matrix,谁能解释一下如何解释系数矩阵，截取向量，混淆矩阵一个多项式logistic回归根据Spark文件：通过多项式逻辑回归（softmax）支持多类分类。在多项式logistic回归中，该算法产生K组系数，或一个维数为K×J的矩阵，其中K是结果类的数量，J是特征的数量。如果该算法适合截距项，则截距的长度K向量可用我使用spark ml 2.3.0打开了一个示例，得到了这个结果如果我分析我得到的：系数矩阵的维数为5*11 interceptVector的维度为5 如果是这样，为什么混淆矩阵

谁能解释一下如何解释

系数矩阵

，

截取向量

，

混淆矩阵

一个

多项式logistic回归

根据Spark文件：

通过多项式逻辑回归（softmax）支持多类分类。在多项式logistic回归中，该算法产生K组系数，或一个维数为K×J的矩阵，其中K是结果类的数量，J是特征的数量。如果该算法适合截距项，则截距的长度K向量可用

我使用spark ml 2.3.0打开了一个示例，得到了这个结果

如果我分析我得到的：

系数矩阵的维数为5*11

interceptVector
的维度为5

如果是这样，为什么混淆矩阵的维数为4*4

还有，谁能解释一下系数矩阵
，截取向量

为什么我会得到负系数
如果5是分类后的类数，为什么我在混淆矩阵中得到4行
编辑
我忘了提到我还是机器学习的初学者，我在谷歌上的搜索没有帮助，所以也许我得到了一张赞成票：）
关于4x4混淆矩阵：我想当你把数据分成测试和训练时，你的训练集中有5个班，而你的测试集中只有4个班。如果响应变量的分布不平衡，则很容易发生这种情况。

在建模之前，您需要尝试在测试和训练之间执行一些分层分割。如果您正在使用pyspark，您可能会发现此库非常有用：
现在，关于多类逻辑回归的负系数：正如您所提到的，返回的系数矩阵形状是5x11。
Spark通过一对一的方法生成了五个模型。第一个模型对应于一个模型，其中正类是第一个标签，负类由所有其他标签组成。假设该模型的第一个系数为-2.23。为了解释该系数，我们采用-2.23的指数，即（约）0.10。这里的解释是：“第一个特征增加一个单位，我们期望阳性标签的几率降低90%。”