Machine learning 回归问题的维数/降噪技术_Machine Learning_Scikit Learn_Regression

Machine learning 回归问题的维数/降噪技术

machine-learning scikit-learn

Machine learning 回归问题的维数/降噪技术,machine-learning,scikit-learn,regression,Machine Learning,Scikit Learn,Regression,回归问题中的降维技术有哪些？我尝试了我所知道的唯一的无监督技术，PCA和内核PCA（使用scikit学习库），但我没有看到使用这些技术的任何改进。也许这些只适用于分类问题？我还可以尝试哪些其他技巧？最好是在sklearn中实现的技术。这是一个非常普遍的问题，这些技术（或它们的组合）的适用性实际上取决于您的问题细节一般来说，有几种类型的降维方法（与您提到的方法不同）也许降维的最简单形式就是只使用一些特征，在这种情况下，我们真正讨论的是特征选择（请参阅）另一种方法是集群（），并将每个集群替换为

回归问题中的降维技术有哪些？我尝试了我所知道的唯一的无监督技术，PCA和内核PCA（使用scikit学习库），但我没有看到使用这些技术的任何改进。也许这些只适用于分类问题？我还可以尝试哪些其他技巧？最好是在sklearn中实现的技术。

这是一个非常普遍的问题，这些技术（或它们的组合）的适用性实际上取决于您的问题细节

一般来说，有几种类型的降维方法（与您提到的方法不同）

也许降维的最简单形式就是只使用一些特征，在这种情况下，我们真正讨论的是特征选择（请参阅）

另一种方法是集群（），并将每个集群替换为其组件的集合

最后，一些回归器使用l1惩罚和凸优化特性同时选择特征子集；在sklearn中，请参阅

再一次，这是一个非常广泛的问题。有整本书和比赛，甚至包括特征选择，这是降维的一个子集。

这是一个非常普遍的问题，技术（或它们的组合）的适用性实际上取决于你的问题细节

一般来说，有几种类型的降维方法（与您提到的方法不同）

也许降维的最简单形式就是只使用一些特征，在这种情况下，我们真正讨论的是特征选择（请参阅）

另一种方法是集群（），并将每个集群替换为其组件的集合

最后，一些回归器使用l1惩罚和凸优化特性同时选择特征子集；在sklearn中，请参阅

再一次，这是一个非常广泛的问题。甚至还有整本书和比赛，关于特征选择，这是降维的一个子集。

再加上@AmiTavory的好答案：

PCA

主成分分析可以在这里使用。如果你不想执行

降维

只需保留sa即可将PCA中的特征向量数作为输入矩阵的大小：在您的例子中为20

所得的输出将是正交的特征向量：你可以考虑它们来提供“转换”。您正在寻求以下方法：向量按其各自的方差量进行排序，它们代表输入。

再加上@AmiTavory的好答案：

PCA

主成分分析可以在这里使用。如果您不希望执行

降维

只需保留相同数量的特征向量即可m

PCA

作为输入矩阵的大小：在您的例子中为20

所得的输出将是正交的特征向量：你可以考虑它们来提供“转换”。您正在寻求以下方法：向量根据其各自代表输入的方差量进行排序。

维数减少并不能改善结果。只有当以下模型（回归器）足够弱，以至于“分心”时，它才会这样做通过相关输入等。因此，这不是您在构建模型时应该使用的东西，除非您的模型因尺寸过多而失败（并且您不想更改模型）.一般来说，你应该建立一个更强的回归器，而不是做独立的、信息丢失的、维度缩减。如果数据本身非常嘈杂怎么办？还是有一个更强的回归器更好，因为你会尝试同时做这两件事-消除噪音和联合建立模型。维度缩减将你的问题分成两个独立的问题因此，t部分必须更弱。维度缩减并不能改善结果。只有在以下模型（回归器）足够弱以至于“分心”的情况下，它才会这样做通过相关输入等。因此，这不是您在构建模型时应该使用的东西，除非您的模型因尺寸过多而失败（并且您不想更改模型）.一般来说，你应该建立一个更强的回归器，而不是做独立的、信息丢失的、维度缩减。如果数据本身非常嘈杂怎么办？还是有一个更强的回归器更好，因为你会尝试同时做这两件事-消除噪音和联合建立模型。维度缩减将你的问题分成两个独立的问题t部分，因此必须较弱。我更多地考虑特征投影/转换，而不是特征选择（数据集只有大约20个特征，但数据非常嘈杂）@SimonZhu在这种情况下，sklearn中唯一想到的另一件事是。@SimonZhu另一件事——正如我所写的，特征选择是降维的一个特例。20绝对是一个大数字还是一个小数字并不重要。总有一种可能，特征的子集对你的预测是最好的。我明白了，我会考虑的好的，再深入一点（事实上，它实际上只有5个特征，但其中一个是离散的，有20个唯一的值，所以我有一个热编码的那一个，所以最后我得到了“24”个特征）我更多地考虑特征投影/转换，而不是特征选择（数据集只有大约20个特征，但数据非常嘈杂）@SimonZhu在这种情况下，sklearn中唯一想到的另一件事是。@SimonZhu另一件事——正如我所写的，特征选择是降维的一个特例。20绝对是一个大数字还是一个小数字并不重要。总有一种可能，特征的子集对你的预测是最好的。我明白了，我会考虑的好的，我