Scikit learn 需要标准化/规范化的scikit学习算法列表

Scikit learn 需要标准化/规范化的scikit学习算法列表,scikit-learn,data-science,Scikit Learn,Data Science,有人能提供使用前需要标准化或规范化数据的所有算法的列表吗,或者有人能举例告诉我在scikit学习文档中哪里可以找到它。在大多数情况下,功能缩放意味着: 1.使所有特征的平均值不要太大(例如,0) 2.使所有特征的方差大致相同(例如,1) 因此,您的问题可能会略有不同: 1) 哪些算法依赖于接近零的绝对值? 2) 哪些算法要求值以可比较的方式分布? 3) 哪些算法使用正则化来惩罚特征的极端权重 第一点与ANN中的激活函数密切相关,由于导数的存在,ANN具有接近零的最大学习能力(sigmoid、ta

有人能提供使用前需要标准化或规范化数据的所有算法的列表吗,或者有人能举例告诉我在scikit学习文档中哪里可以找到它。

在大多数情况下,功能缩放意味着:
1.使所有特征的平均值不要太大(例如,0)
2.使所有特征的方差大致相同(例如,1)

因此,您的问题可能会略有不同:
1) 哪些算法依赖于接近零的绝对值?
2) 哪些算法要求值以可比较的方式分布?
3) 哪些算法使用正则化来惩罚特征的极端权重

第一点与ANN中的激活函数密切相关,由于导数的存在,ANN具有接近零的最大学习能力(sigmoid、tanh、relu)

第二点和第三点与不同特征的权重相等有关


一般来说,由于第二点和第三点,您应该始终进行缩放。例外情况是决策树,它不使用任何具有不同特征的联合指标,也不使用任何关于平均值的假设,因此可以在不进行缩放的情况下使用。

嘿,你能告诉我如何找到上述三个问题的答案吗?你需要确切地知道你在做什么。关于分类或回归,除决策树外,在所有情况下都使用缩放。对于集群,我也这么认为,但需要检查算法的实现。您只需比较缩放和不缩放的结果-如果它们相同,则绝对值和方差可能无关紧要,在另一种情况下使用缩放。此问题没有明确的“需要”/“不需要”答案。例如,神经网络将与缩放或非缩放数据一起工作,但可能从标准化中获益。因此,您更需要讨论哪种算法在哪种情况下受益于标准化/规范化。