Machine learning 最佳特征选择方法

Machine learning 最佳特征选择方法,machine-learning,data-science,Machine Learning,Data Science,我有六个以上不同的表,有300多个特性(属性)。现在,我对选择模型构建特征的正确方法有点困惑。我考虑两个过程 逐个选择属性并计算其对输出的重要性,然后将其添加到数据集市 从所有表中提取所有特征,计算它们的相关性和重要性,并删除不太重要的特征 您可以使用从一个特征开始的正向特征选择,您仅使用300个特征中的一个来训练模型,并执行300次,这样您就可以分别使用其中的每一个特征训练模型,并选择使您的模型具有最高精度的特征,现在保留该功能,并开始使用所选功能和299个剩余功能中的另一个来训练您的模型,因

我有六个以上不同的表,有300多个特性(属性)。现在,我对选择模型构建特征的正确方法有点困惑。我考虑两个过程

  • 逐个选择属性并计算其对输出的重要性,然后将其添加到数据集市
  • 从所有表中提取所有特征,计算它们的相关性和重要性,并删除不太重要的特征

  • 您可以使用从一个特征开始的正向特征选择,您仅使用300个特征中的一个来训练模型,并执行300次,这样您就可以分别使用其中的每一个特征训练模型,并选择使您的模型具有最高精度的特征,现在保留该功能,并开始使用所选功能和299个剩余功能中的另一个来训练您的模型,因此您可以使用2个功能训练299个模型,现在添加299个功能中的一个,该功能为您提供了先前所选功能的最高精度。现在您有两个特性。您继续这样选择k您想要的最佳功能,例如100。请注意,此方法不会为您提供最佳的功能集,例如,两个功能可以很好地协同工作,但它们都不会单独对决策边界产生重大影响,因此不会选择其中任何一个。此外,这是一种非常漫长的方法。还有一个向后的特征选择,你可以开始选择所有的特征,全部300个,然后根据你删除它们的错误一个一个地删除不太重要的特征


    我的建议是使用特征提取方法。从scikit学习使用。只需导入并调用它就可以了!!完成。但在使用PCA之前,请确保对数据进行规范化,您可以使用它。

    您可以使用从一个特征开始的正向特征选择,您仅使用300个特征中的一个来训练模型,并执行此操作300次,因此您已分别使用其中的每一个特征来训练模型,并选择一个使您的模型具有最高精度的特征,现在保留该特征并开始使用所选特征和299个剩余特征中的另一个来训练您的模型,因此您使用2个特征来训练299个模型,现在,添加299个选项中的一个,该选项为您提供了与先前选择的选项相对应的最高精度。现在您有两个特性。您继续这样选择k您想要的最佳功能,例如100。请注意,此方法不会为您提供最佳的功能集,例如,两个功能可以很好地协同工作,但它们都不会单独对决策边界产生重大影响,因此不会选择其中任何一个。此外,这是一种非常漫长的方法。还有一个向后的特征选择,你可以开始选择所有的特征,全部300个,然后根据你删除它们的错误一个一个地删除不太重要的特征


    我的建议是使用特征提取方法。从scikit学习使用。只需导入并调用它就可以了!!完成。但在使用PCA之前,请确保对数据进行规范化,您可以使用PCA。300功能对于您的模型构建过程来说太多了

    您可以使用xgboost和random forest等算法,因为它们具有 寻找特征很重要


    您可以根据要素的重要性对要素进行排序,并删除重要性较低的要素。这将降低模型的复杂性。

    300要素对于您的模型构建过程来说太多了

    您可以使用xgboost和random forest等算法,因为它们具有 寻找特征很重要


    <>你可以根据特征的重要性对你的特征进行排序,删除那些非常不重要的特征。这将使你的模型不那么复杂。

    < P>你可能需要考虑的另一个建模选项是。在这种方法中,某些特征的系数被压缩为零,这实际上是在建模过程中进行变量选择的一部分。在连续的或离散的二元目标变量中使用它是可能的,并且在特征数量接近、等于或大于观测值的情况下特别有用。在这种方法中,某些特征的系数被压缩为零,这实际上是在建模过程中进行变量选择的一部分。它可以用于连续或离散的二进制目标变量,在特征数量接近、等于或大于观测数量的情况下特别有用