Scala Spark';做数据标准化?

Scala Spark';做数据标准化?,scala,apache-spark,logistic-regression,Scala,Apache Spark,Logistic Regression,我正在研究Spark的ml.LogisticRegression,以找到它在何处以及如何标准化其输入数据集 然而,当我检查时,我期待着类似的东西 if(standardization){ scaled_dataset = do_standardization(old_dataset) } 然后我可以检查使用了哪种方法(minmax、zscore或其他方法)。然而,我没有发现LR正在使用标准化的证据。我知道,使用当前的LBFGS优化器,是否进行标准化并不重要,但由于spark仍然提供设置

我正在研究Spark的
ml.LogisticRegression
,以找到它在何处以及如何标准化其输入数据集

然而,当我检查时,我期待着类似的东西

if(standardization){
    scaled_dataset = do_standardization(old_dataset)
}
然后我可以检查使用了哪种方法(minmax、zscore或其他方法)。然而,我没有发现LR正在使用标准化的证据。我知道,使用当前的LBFGS优化器,是否进行标准化并不重要,但由于spark仍然提供
设置标准化
选项,并表示使用标准化将提供更好的收敛性,因此我想知道它在何处以及如何进行标准化


从当前代码中,我发现set
标准化
或不仅影响如何进行规范化。似乎spark将系数乘以
特性std
,而不是对数据集进行z评分。

spark源中引用的GLM文档可能会有所帮助():“在拟合模型序列之前,标准化是x变量标准化的逻辑标志。系数始终以原始比例返回”。一些实用教程(尽管在R:和Spark source中引用的GLM文档中)可能会有所帮助():“在拟合模型序列之前,标准化是x变量标准化的逻辑标志。系数始终以原始比例返回”。一些实用教程,尽管是R:和