Apache spark PySpark多项式回归中的参考群

Apache spark PySpark多项式回归中的参考群,apache-spark,pyspark,logistic-regression,multinomial,multiclass-classification,Apache Spark,Pyspark,Logistic Regression,Multinomial,Multiclass Classification,有人知道Pypark多项式逻辑回归中的默认参考组是什么吗。例如,我们有A、B、C和D的多类结果/目标 spark如何选择参考类别?在其他软件(例如R,SAS)中的标准逻辑回归中,您可以自己设置参考组。因此,如果您的引用是A,您将得到n-1模型,并将目标类建模为A vs B、A vs C和A vs D 您希望控制此过程,因为如果将具有少量值(观察的小样本)的结果设置为参考,则估计值将不稳定 对pyspark中的多项式logistic回归模型进行了改进。这里的结果类是0、1、2,但不清楚参考是什么。

有人知道Pypark多项式逻辑回归中的默认参考组是什么吗。例如,我们有A、B、C和D的多类结果/目标

spark如何选择参考类别?在其他软件(例如
R
SAS
)中的标准逻辑回归中,您可以自己设置参考组。因此,如果您的引用是
A
,您将得到
n-1
模型,并将目标类建模为
A vs B、A vs C和A vs D

您希望控制此过程,因为如果将具有少量值(观察的小样本)的结果设置为参考,则估计值将不稳定


对pyspark中的多项式logistic回归模型进行了改进。这里的结果类是0、1、2,但不清楚参考是什么。我假设它可能是零,但不确定。我认为默认情况下,它不使用参考组。这就是为什么,如果从链接运行snip,所有截取都会找到非零值

从scala源代码:

  • 请注意,多项式(softmax)和二进制损耗之间存在差异。二元情况
  • 使用一个结果类作为“轴心”,并根据轴心对另一个类进行回归。在
  • 在多项式情况下,使用softmax损失函数对每类概率进行建模
  • 独立地。使用softmax loss会生成
    K
    组系数,而使用pivot类
  • 生成
    K-1
    系数集(二进制情况下为单个系数向量)。在
  • 在二元情况下,我们可以说,系数在正和负之间共享
  • 班级

接着讨论了系数通常是如何不可识别的(这就是为什么人们会选择参考标签),但当应用正则化时,系数确实会变得可识别。

这非常有用。拦截最初让我感到困惑,因为正如你提到的,我们应该比目标类的数量少一个拦截。可能有一种方法可以使用“pivot”损失而不是“softmax”来使用参考变量。