Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 何时使用zscore规范化数据(拆分之前或之后)_Apache Spark_Machine Learning_Scikit Learn - Fatal编程技术网

Apache spark 何时使用zscore规范化数据(拆分之前或之后)

Apache spark 何时使用zscore规范化数据(拆分之前或之后),apache-spark,machine-learning,scikit-learn,Apache Spark,Machine Learning,Scikit Learn,我参加了一个udemy课程,这为仅规范化列车数据(从测试数据中分离后)提供了有力的理由,因为模型通常由新数据使用,具有原始数据集的比例特征。如果您缩放测试数据,那么您没有正确地为模型评分 另一方面,我发现我的两类逻辑回归模型(由Azure机器学习工作室创建)在仅对列车数据进行Z分数缩放后得到了糟糕的结果 a。这仅仅是Azure工具的问题吗? B当特征数据需要缩放(一个、两个或三个数量级的差异)时,什么是好的经验法则?由于标准化测试集,没有正确地对模型进行评分似乎没有意义: 您可能还将规范化用于未

我参加了一个udemy课程,这为仅规范化列车数据(从测试数据中分离后)提供了有力的理由,因为模型通常由新数据使用,具有原始数据集的比例特征。如果您缩放测试数据,那么您没有正确地为模型评分

另一方面,我发现我的两类逻辑回归模型(由Azure机器学习工作室创建)在仅对列车数据进行Z分数缩放后得到了糟糕的结果

a。这仅仅是Azure工具的问题吗?
B当特征数据需要缩放(一个、两个或三个数量级的差异)时,什么是好的经验法则?

由于标准化测试集,没有正确地对模型进行评分似乎没有意义: 您可能还将规范化用于未来预测的数据


我在datascience stackexchange中发现,最上面的答案表明,不仅测试数据必须标准化,还需要应用与训练数据完全相同的缩放比例,因为您的模型也考虑了数据的比例:不同比例的测试/预测数据可能会导致功能过度/不足夸张。

这是一个很好的链接。看起来像决策树算法,不需要缩放。这是一个伟大的发现。感谢一位新手数据科学家。别担心另一位新手。