Apache spark PySpark多项式回归中的参考群_Apache Spark_Pyspark_Logistic Regression_Multinomial_Multiclass Classification

Apache spark PySpark多项式回归中的参考群

apache-spark pyspark

Apache spark PySpark多项式回归中的参考群,apache-spark,pyspark,logistic-regression,multinomial,multiclass-classification,Apache Spark,Pyspark,Logistic Regression,Multinomial,Multiclass Classification,有人知道Pypark多项式逻辑回归中的默认参考组是什么吗。例如，我们有A、B、C和D的多类结果/目标 spark如何选择参考类别？在其他软件（例如R，SAS）中的标准逻辑回归中，您可以自己设置参考组。因此，如果您的引用是A，您将得到n-1模型，并将目标类建模为A vs B、A vs C和A vs D 您希望控制此过程，因为如果将具有少量值（观察的小样本）的结果设置为参考，则估计值将不稳定对pyspark中的多项式logistic回归模型进行了改进。这里的结果类是0、1、2，但不清楚参考是什么。

有人知道Pypark多项式逻辑回归中的默认参考组是什么吗。例如，我们有A、B、C和D的多类结果/目标

spark如何选择参考类别？在其他软件（例如

，

SAS

）中的标准逻辑回归中，您可以自己设置参考组。因此，如果您的引用是

，您将得到

n-1

模型，并将目标类建模为

A vs B、A vs C和A vs D

您希望控制此过程，因为如果将具有少量值（观察的小样本）的结果设置为参考，则估计值将不稳定

对pyspark中的多项式logistic回归模型进行了改进。这里的结果类是0、1、2，但不清楚参考是什么。我假设它可能是零，但不确定。我认为默认情况下，它不使用参考组。这就是为什么，如果从链接运行snip，所有截取都会找到非零值

从scala源代码：

请注意，多项式（softmax）和二进制损耗之间存在差异。二元情况
使用一个结果类作为“轴心”，并根据轴心对另一个类进行回归。在
在多项式情况下，使用softmax损失函数对每类概率进行建模
独立地。使用softmax loss会生成
```
K
```
组系数，而使用pivot类
生成
```
K-1
```
系数集（二进制情况下为单个系数向量）。在
在二元情况下，我们可以说，系数在正和负之间共享
班级

接着讨论了系数通常是如何不可识别的（这就是为什么人们会选择参考标签），但当应用正则化时，系数确实会变得可识别。

这非常有用。拦截最初让我感到困惑，因为正如你提到的，我们应该比目标类的数量少一个拦截。可能有一种方法可以使用“pivot”损失而不是“softmax”来使用参考变量。