Machine learning 如何为正确的数据集选择正确的规范化方法?

Machine learning 如何为正确的数据集选择正确的规范化方法?,machine-learning,scikit-learn,data-mining,normalization,Machine Learning,Scikit Learn,Data Mining,Normalization,有几种标准化方法可供选择。L1/L2范数、z分数、最小-最大值。有人能就如何为数据集选择适当的标准化方法给出一些见解吗 我以前没有太注意规范化,但我只是得到了一个小项目,它的性能受到了严重影响,不是受参数或ML算法选择的影响,而是受我规范化数据的方式的影响。我有点惊讶。但这在实践中可能是一个常见的问题。那么,谁能提供一些好的建议呢?非常感谢 我想在这个问题上很难找到好的答案。规范化可能很棘手。目标通常是平等对待所有特性,避免不公平地偏袒其中一个特性。我认为这是一个非常有趣的问题,思考一下这些规范

有几种标准化方法可供选择。L1/L2范数、z分数、最小-最大值。有人能就如何为数据集选择适当的标准化方法给出一些见解吗


我以前没有太注意规范化,但我只是得到了一个小项目,它的性能受到了严重影响,不是受参数或ML算法选择的影响,而是受我规范化数据的方式的影响。我有点惊讶。但这在实践中可能是一个常见的问题。那么,谁能提供一些好的建议呢?非常感谢

我想在这个问题上很难找到好的答案。规范化可能很棘手。目标通常是平等对待所有特性,避免不公平地偏袒其中一个特性。我认为这是一个非常有趣的问题,思考一下这些规范化方法中的假设,以及它们对哪些方法更具意义是有意义的。然而,这是一个相当广泛的问题,不是关于编程的,而是关于统计的,我想,就像你说的,有几个,但没有几千个。你有什么理由不能全部尝试吗?例如,在scikit learn中进行网格搜索,然后选择最有效的方法?@IVlad,那么,检查最有效的方法可能是机器学习的最终解决方案。最后,您还是会选择最好的工作规范化方法。然而,我认为理解规范化对不同方法的影响是很有意义的。这个问题不应该重新发布,而应该转移到stats.stackexchange.com我知道stats可能是一个更好的提问的地方,但是如何将它迁移到stats?