Scikit learn 需要标准化/规范化的scikit学习算法列表_Scikit Learn_Data Science

Scikit learn 需要标准化/规范化的scikit学习算法列表

scikit-learn

Scikit learn 需要标准化/规范化的scikit学习算法列表,scikit-learn,data-science,Scikit Learn,Data Science,有人能提供使用前需要标准化或规范化数据的所有算法的列表吗，或者有人能举例告诉我在scikit学习文档中哪里可以找到它。在大多数情况下，功能缩放意味着： 1.使所有特征的平均值不要太大（例如，0） 2.使所有特征的方差大致相同（例如，1）因此，您的问题可能会略有不同： 1）哪些算法依赖于接近零的绝对值？ 2）哪些算法要求值以可比较的方式分布？ 3）哪些算法使用正则化来惩罚特征的极端权重第一点与ANN中的激活函数密切相关，由于导数的存在，ANN具有接近零的最大学习能力（sigmoid、ta

有人能提供使用前需要标准化或规范化数据的所有算法的列表吗，或者有人能举例告诉我在scikit学习文档中哪里可以找到它。

在大多数情况下，功能缩放意味着：
1.使所有特征的平均值不要太大（例如，0）
2.使所有特征的方差大致相同（例如，1）

因此，您的问题可能会略有不同：
1）哪些算法依赖于接近零的绝对值？
2）哪些算法要求值以可比较的方式分布？
3）哪些算法使用正则化来惩罚特征的极端权重

第一点与ANN中的激活函数密切相关，由于导数的存在，ANN具有接近零的最大学习能力（sigmoid、tanh、relu）

第二点和第三点与不同特征的权重相等有关

一般来说，由于第二点和第三点，您应该始终进行缩放。例外情况是决策树，它不使用任何具有不同特征的联合指标，也不使用任何关于平均值的假设，因此可以在不进行缩放的情况下使用。

嘿，你能告诉我如何找到上述三个问题的答案吗？你需要确切地知道你在做什么。关于分类或回归，除决策树外，在所有情况下都使用缩放。对于集群，我也这么认为，但需要检查算法的实现。您只需比较缩放和不缩放的结果-如果它们相同，则绝对值和方差可能无关紧要，在另一种情况下使用缩放。此问题没有明确的“需要”/“不需要”答案。例如，神经网络将与缩放或非缩放数据一起工作，但可能从标准化中获益。因此，您更需要讨论哪种算法在哪种情况下受益于标准化/规范化。