Machine learning 回归问题的维数/降噪技术

Machine learning 回归问题的维数/降噪技术,machine-learning,scikit-learn,regression,Machine Learning,Scikit Learn,Regression,回归问题中的降维技术有哪些?我尝试了我所知道的唯一的无监督技术,PCA和内核PCA(使用scikit学习库),但我没有看到使用这些技术的任何改进。也许这些只适用于分类问题?我还可以尝试哪些其他技巧?最好是在sklearn中实现的技术。这是一个非常普遍的问题,这些技术(或它们的组合)的适用性实际上取决于您的问题细节 一般来说,有几种类型的降维方法(与您提到的方法不同) 也许降维的最简单形式就是只使用一些特征,在这种情况下,我们真正讨论的是特征选择(请参阅) 另一种方法是集群(),并将每个集群替换为

回归问题中的降维技术有哪些?我尝试了我所知道的唯一的无监督技术,PCA和内核PCA(使用scikit学习库),但我没有看到使用这些技术的任何改进。也许这些只适用于分类问题?我还可以尝试哪些其他技巧?最好是在sklearn中实现的技术。

这是一个非常普遍的问题,这些技术(或它们的组合)的适用性实际上取决于您的问题细节

一般来说,有几种类型的降维方法(与您提到的方法不同)

  • 也许降维的最简单形式就是只使用一些特征,在这种情况下,我们真正讨论的是特征选择(请参阅)

  • 另一种方法是集群(),并将每个集群替换为其组件的集合

  • 最后,一些回归器使用l1惩罚和凸优化特性同时选择特征子集;在sklearn中,请参阅


  • 再一次,这是一个非常广泛的问题。有整本书和比赛,甚至包括特征选择,这是降维的一个子集。

    这是一个非常普遍的问题,技术(或它们的组合)的适用性实际上取决于你的问题细节

    一般来说,有几种类型的降维方法(与您提到的方法不同)

  • 也许降维的最简单形式就是只使用一些特征,在这种情况下,我们真正讨论的是特征选择(请参阅)

  • 另一种方法是集群(),并将每个集群替换为其组件的集合

  • 最后,一些回归器使用l1惩罚和凸优化特性同时选择特征子集;在sklearn中,请参阅


  • 再一次,这是一个非常广泛的问题。甚至还有整本书和比赛,关于特征选择,这是降维的一个子集。

    再加上@AmiTavory的好答案:
    PCA
    主成分分析可以在这里使用。如果你不想执行
    降维
    只需保留sa即可将PCA中的特征向量数作为输入矩阵的大小:在您的例子中为20


    所得的输出将是正交的特征向量:你可以考虑它们来提供“转换”。您正在寻求以下方法:向量按其各自的方差量进行排序,它们代表输入。

    再加上@AmiTavory的好答案:
    PCA
    主成分分析可以在这里使用。如果您不希望执行
    降维
    只需保留相同数量的特征向量即可m
    PCA
    作为输入矩阵的大小:在您的例子中为20


    所得的输出将是正交的特征向量:你可以考虑它们来提供“转换”。您正在寻求以下方法:向量根据其各自代表输入的方差量进行排序。

    维数减少并不能改善结果。只有当以下模型(回归器)足够弱,以至于“分心”时,它才会这样做通过相关输入等。因此,这不是您在构建模型时应该使用的东西,除非您的模型因尺寸过多而失败(并且您不想更改模型).一般来说,你应该建立一个更强的回归器,而不是做独立的、信息丢失的、维度缩减。如果数据本身非常嘈杂怎么办?还是有一个更强的回归器更好,因为你会尝试同时做这两件事-消除噪音和联合建立模型。维度缩减将你的问题分成两个独立的问题因此,t部分必须更弱。维度缩减并不能改善结果。只有在以下模型(回归器)足够弱以至于“分心”的情况下,它才会这样做通过相关输入等。因此,这不是您在构建模型时应该使用的东西,除非您的模型因尺寸过多而失败(并且您不想更改模型).一般来说,你应该建立一个更强的回归器,而不是做独立的、信息丢失的、维度缩减。如果数据本身非常嘈杂怎么办?还是有一个更强的回归器更好,因为你会尝试同时做这两件事-消除噪音和联合建立模型。维度缩减将你的问题分成两个独立的问题t部分,因此必须较弱。我更多地考虑特征投影/转换,而不是特征选择(数据集只有大约20个特征,但数据非常嘈杂)@SimonZhu在这种情况下,sklearn中唯一想到的另一件事是。@SimonZhu另一件事——正如我所写的,特征选择是降维的一个特例。20绝对是一个大数字还是一个小数字并不重要。总有一种可能,特征的子集对你的预测是最好的。我明白了,我会考虑的好的,再深入一点(事实上,它实际上只有5个特征,但其中一个是离散的,有20个唯一的值,所以我有一个热编码的那一个,所以最后我得到了“24”个特征)我更多地考虑特征投影/转换,而不是特征选择(数据集只有大约20个特征,但数据非常嘈杂)@SimonZhu在这种情况下,sklearn中唯一想到的另一件事是。@SimonZhu另一件事——正如我所写的,特征选择是降维的一个特例。20绝对是一个大数字还是一个小数字并不重要。总有一种可能,特征的子集对你的预测是最好的。我明白了,我会考虑的好的,我