Apache spark 何时使用zscore规范化数据（拆分之前或之后）_Apache Spark_Machine Learning_Scikit Learn

Apache spark 何时使用zscore规范化数据（拆分之前或之后）

apache-spark machine-learning scikit-learn

Apache spark 何时使用zscore规范化数据（拆分之前或之后）,apache-spark,machine-learning,scikit-learn,Apache Spark,Machine Learning,Scikit Learn,我参加了一个udemy课程，这为仅规范化列车数据（从测试数据中分离后）提供了有力的理由，因为模型通常由新数据使用，具有原始数据集的比例特征。如果您缩放测试数据，那么您没有正确地为模型评分另一方面，我发现我的两类逻辑回归模型（由Azure机器学习工作室创建）在仅对列车数据进行Z分数缩放后得到了糟糕的结果 a。这仅仅是Azure工具的问题吗？ B当特征数据需要缩放（一个、两个或三个数量级的差异）时，什么是好的经验法则？由于标准化测试集，没有正确地对模型进行评分似乎没有意义：您可能还将规范化用于未

我参加了一个udemy课程，这为仅规范化列车数据（从测试数据中分离后）提供了有力的理由，因为模型通常由新数据使用，具有原始数据集的比例特征。如果您缩放测试数据，那么您没有正确地为模型评分

另一方面，我发现我的两类逻辑回归模型（由Azure机器学习工作室创建）在仅对列车数据进行Z分数缩放后得到了糟糕的结果

a。这仅仅是Azure工具的问题吗？

B当特征数据需要缩放（一个、两个或三个数量级的差异）时，什么是好的经验法则？

由于标准化测试集，没有正确地对模型进行评分似乎没有意义：您可能还将规范化用于未来预测的数据

我在datascience stackexchange中发现，最上面的答案表明，不仅测试数据必须标准化，还需要应用与训练数据完全相同的缩放比例，因为您的模型也考虑了数据的比例：不同比例的测试/预测数据可能会导致功能过度/不足夸张。

这是一个很好的链接。看起来像决策树算法，不需要缩放。这是一个伟大的发现。感谢一位新手数据科学家。别担心另一位新手。