Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释_Apache Spark_Classification_Logistic Regression_Apache Spark Ml_Confusion Matrix - Fatal编程技术网

Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释

Apache spark 多项式logistic回归系数矩阵、截距向量和混淆矩阵的解释,apache-spark,classification,logistic-regression,apache-spark-ml,confusion-matrix,Apache Spark,Classification,Logistic Regression,Apache Spark Ml,Confusion Matrix,谁能解释一下如何解释系数矩阵,截取向量,混淆矩阵 一个多项式logistic回归 根据Spark文件: 通过多项式逻辑回归(softmax)支持多类分类。在多项式logistic回归中,该算法产生K组系数,或一个维数为K×J的矩阵,其中K是结果类的数量,J是特征的数量。如果该算法适合截距项,则截距的长度K向量可用 我使用spark ml 2.3.0打开了一个示例,得到了这个结果 如果我分析我得到的: 系数矩阵的维数为5*11 interceptVector的维度为5 如果是这样,为什么混淆矩阵

谁能解释一下如何解释
系数矩阵
截取向量
混淆矩阵

一个
多项式logistic回归

根据Spark文件:

通过多项式逻辑回归(softmax)支持多类分类。在多项式logistic回归中,该算法产生K组系数,或一个维数为K×J的矩阵,其中K是结果类的数量,J是特征的数量。如果该算法适合截距项,则截距的长度K向量可用

我使用spark ml 2.3.0打开了一个示例,得到了这个结果

如果我分析我得到的:

系数矩阵的维数为
5*11

interceptVector
的维度为
5

如果是这样,为什么混淆矩阵的维数为
4*4

还有,谁能解释一下
系数矩阵
截取向量

为什么我会得到负系数

如果5是分类后的类数,为什么我在混淆矩阵中得到4行

编辑


我忘了提到我还是机器学习的初学者,我在谷歌上的搜索没有帮助,所以也许我得到了一张赞成票:)

关于4x4混淆矩阵:我想当你把数据分成测试和训练时,你的训练集中有5个班,而你的测试集中只有4个班。如果响应变量的分布不平衡,则很容易发生这种情况。
在建模之前,您需要尝试在测试和训练之间执行一些分层分割。如果您正在使用pyspark,您可能会发现此库非常有用:

现在,关于多类逻辑回归的负系数:正如您所提到的,返回的系数矩阵形状是5x11。 Spark通过一对一的方法生成了五个模型。第一个模型对应于一个模型,其中正类是第一个标签,负类由所有其他标签组成。假设该模型的第一个系数为-2.23。为了解释该系数,我们采用-2.23的指数,即(约)0.10。这里的解释是:“第一个特征增加一个单位,我们期望阳性标签的几率降低90%。”