Scala Spark'；做数据标准化？_Scala_Apache Spark_Logistic Regression

Scala Spark'；做数据标准化？

scala apache-spark

Scala Spark'；做数据标准化？,scala,apache-spark,logistic-regression,Scala,Apache Spark,Logistic Regression,我正在研究Spark的ml.LogisticRegression，以找到它在何处以及如何标准化其输入数据集然而，当我检查时，我期待着类似的东西 if(standardization){ scaled_dataset = do_standardization(old_dataset) } 然后我可以检查使用了哪种方法（minmax、zscore或其他方法）。然而，我没有发现LR正在使用标准化的证据。我知道，使用当前的LBFGS优化器，是否进行标准化并不重要，但由于spark仍然提供设置

我正在研究Spark的

ml.LogisticRegression

，以找到它在何处以及如何标准化其输入数据集

然而，当我检查时，我期待着类似的东西

if(standardization){
    scaled_dataset = do_standardization(old_dataset)
}

然后我可以检查使用了哪种方法（minmax、zscore或其他方法）。然而，我没有发现LR正在使用标准化的证据。我知道，使用当前的LBFGS优化器，是否进行标准化并不重要，但由于spark仍然提供

设置标准化

选项，并表示使用标准化将提供更好的收敛性，因此我想知道它在何处以及如何进行标准化

从当前代码中，我发现set

标准化

或不仅影响如何进行规范化。似乎spark将系数乘以

特性std

，而不是对数据集进行z评分。

spark源中引用的GLM文档可能会有所帮助（）：“在拟合模型序列之前，标准化是x变量标准化的逻辑标志。系数始终以原始比例返回”。一些实用教程（尽管在R:和Spark source中引用的GLM文档中）可能会有所帮助（）：“在拟合模型序列之前，标准化是x变量标准化的逻辑标志。系数始终以原始比例返回”。一些实用教程，尽管是R:和