Machine learning 最佳特征选择方法_Machine Learning_Data Science

Machine learning 最佳特征选择方法

machine-learning

Machine learning 最佳特征选择方法,machine-learning,data-science,Machine Learning,Data Science,我有六个以上不同的表，有300多个特性（属性）。现在，我对选择模型构建特征的正确方法有点困惑。我考虑两个过程逐个选择属性并计算其对输出的重要性，然后将其添加到数据集市从所有表中提取所有特征，计算它们的相关性和重要性，并删除不太重要的特征您可以使用从一个特征开始的正向特征选择，您仅使用300个特征中的一个来训练模型，并执行300次，这样您就可以分别使用其中的每一个特征训练模型，并选择使您的模型具有最高精度的特征，现在保留该功能，并开始使用所选功能和299个剩余功能中的另一个来训练您的模型，因

我有六个以上不同的表，有300多个特性（属性）。现在，我对选择模型构建特征的正确方法有点困惑。我考虑两个过程

逐个选择属性并计算其对输出的重要性，然后将其添加到数据集市

从所有表中提取所有特征，计算它们的相关性和重要性，并删除不太重要的特征

您可以使用从一个特征开始的正向特征选择，您仅使用300个特征中的一个来训练模型，并执行300次，这样您就可以分别使用其中的每一个特征训练模型，并选择使您的模型具有最高精度的特征，现在保留该功能，并开始使用所选功能和299个剩余功能中的另一个来训练您的模型，因此您可以使用2个功能训练299个模型，现在添加299个功能中的一个，该功能为您提供了先前所选功能的最高精度。现在您有两个特性。您继续这样选择k您想要的最佳功能，例如100。请注意，此方法不会为您提供最佳的功能集，例如，两个功能可以很好地协同工作，但它们都不会单独对决策边界产生重大影响，因此不会选择其中任何一个。此外，这是一种非常漫长的方法。还有一个向后的特征选择，你可以开始选择所有的特征，全部300个，然后根据你删除它们的错误一个一个地删除不太重要的特征

我的建议是使用特征提取方法。从scikit学习使用。只需导入并调用它就可以了！！完成。但在使用PCA之前，请确保对数据进行规范化，您可以使用它。

您可以使用从一个特征开始的正向特征选择，您仅使用300个特征中的一个来训练模型，并执行此操作300次，因此您已分别使用其中的每一个特征来训练模型，并选择一个使您的模型具有最高精度的特征，现在保留该特征并开始使用所选特征和299个剩余特征中的另一个来训练您的模型，因此您使用2个特征来训练299个模型，现在，添加299个选项中的一个，该选项为您提供了与先前选择的选项相对应的最高精度。现在您有两个特性。您继续这样选择k您想要的最佳功能，例如100。请注意，此方法不会为您提供最佳的功能集，例如，两个功能可以很好地协同工作，但它们都不会单独对决策边界产生重大影响，因此不会选择其中任何一个。此外，这是一种非常漫长的方法。还有一个向后的特征选择，你可以开始选择所有的特征，全部300个，然后根据你删除它们的错误一个一个地删除不太重要的特征

我的建议是使用特征提取方法。从scikit学习使用。只需导入并调用它就可以了！！完成。但在使用PCA之前，请确保对数据进行规范化，您可以使用PCA。300功能对于您的模型构建过程来说太多了

您可以使用xgboost和random forest等算法，因为它们具有寻找特征很重要

您可以根据要素的重要性对要素进行排序，并删除重要性较低的要素。这将降低模型的复杂性。

300要素对于您的模型构建过程来说太多了

您可以使用xgboost和random forest等算法，因为它们具有寻找特征很重要

<>你可以根据特征的重要性对你的特征进行排序，删除那些非常不重要的特征。这将使你的模型不那么复杂。

< P>你可能需要考虑的另一个建模选项是。在这种方法中，某些特征的系数被压缩为零，这实际上是在建模过程中进行变量选择的一部分。在连续的或离散的二元目标变量中使用它是可能的，并且在特征数量接近、等于或大于观测值的情况下特别有用。在这种方法中，某些特征的系数被压缩为零，这实际上是在建模过程中进行变量选择的一部分。它可以用于连续或离散的二进制目标变量，在特征数量接近、等于或大于观测数量的情况下特别有用