Machine learning 在回归任务中,我如何找到哪些自变量被忽略或不重要?

Machine learning 在回归任务中,我如何找到哪些自变量被忽略或不重要?,machine-learning,regression,Machine Learning,Regression,在我处理的回归问题中,有五个独立列和一个依赖列。由于隐私问题,我无法直接共享数据集详细信息,但其中一个自变量是一个ID字段,对于每个示例都是唯一的。 我觉得我不应该在估计因变量时使用ID字段。但这只是一种直觉。我没有充分的理由这样做。 我该怎么办?有没有办法决定使用哪些变量和忽略哪些变量?根据您的说法,ID变量对于每个示例都是唯一的。因此,模型将无法从这个变量中学习任何东西,因为在每个示例中,您都会得到一个新的ID,因此没有需要学习的一般模式,因为每个ID只出现一次 关于功能消除,这取决于。如果

在我处理的回归问题中,有五个独立列和一个依赖列。由于隐私问题,我无法直接共享数据集详细信息,但其中一个自变量是一个ID字段,对于每个示例都是唯一的。 我觉得我不应该在估计因变量时使用ID字段。但这只是一种直觉。我没有充分的理由这样做。
我该怎么办?有没有办法决定使用哪些变量和忽略哪些变量?

根据您的说法,ID变量对于每个示例都是唯一的。因此,模型将无法从这个变量中学习任何东西,因为在每个示例中,您都会得到一个新的ID,因此没有需要学习的一般模式,因为每个ID只出现一次

关于功能消除,这取决于。如果您有领域知识,仅基于此,您就可以根据需要设计/删除功能。如果你对这个领域不太了解,你可以通过交叉验证来尝试一些基本的技术,如反向选择、正向选择等,以获得具有你所使用的度量的最佳值的模型

根据您的说法,每个示例的ID变量都是唯一的。因此,模型将无法从这个变量中学习任何东西,因为在每个示例中,您都会得到一个新的ID,因此没有需要学习的一般模式,因为每个ID只出现一次
关于功能消除,这取决于。如果您有领域知识,仅基于此,您就可以根据需要设计/删除功能。如果你对这个领域不太了解,你可以通过交叉验证来尝试一些基本的技术,如反向选择、正向选择等,以获得具有你所使用的度量的最佳值的模型

嗯,我同意。Id属性在创建模型时似乎不相关,并且在预测中不提供任何帮助

您要查找的术语是功能选择。因为这是一个综合性的部分,所以我只想告诉你们数据科学家们主要使用的方法

对于回归问题,您可以尝试相关热图找到与目标高度相关的特征

sns.heatmap(df.corr())

还有其他几种方法,如PCA,使用树内置特征选择方法为模型找到正确的特征

你也可以试试这个方法。这种方法是有限的,因为模型时间复杂度将随着特征线性增加。但在您只有四个功能可供比较的情况下,您可以尝试一下。通过递归删除四个特征中的一个,可以将使用所有四个特征训练的回归模型与仅使用三个特征训练的模型进行比较。这意味着要训练四个回归模型并对它们进行比较。

好吧,我同意。Id属性在创建模型时似乎不相关,并且在预测中不提供任何帮助

您要查找的术语是功能选择。因为这是一个综合性的部分,所以我只想告诉你们数据科学家们主要使用的方法

对于回归问题,您可以尝试相关热图找到与目标高度相关的特征

sns.heatmap(df.corr())

还有其他几种方法,如PCA,使用树内置特征选择方法为模型找到正确的特征


你也可以试试这个方法。这种方法是有限的,因为模型时间复杂度将随着特征线性增加。但在您只有四个功能可供比较的情况下,您可以尝试一下。通过递归删除四个特征中的一个,可以将使用所有四个特征训练的回归模型与仅使用三个特征训练的模型进行比较。这意味着要训练四个回归模型并对它们进行比较。

ID变量不是特征,因此它们确实不应该用于构建ML模型。如果没有非特征ID,则有四列。进行四次回归,每个回归没有一个特征,并与拟合所有四列的结果进行比较。ID变量不是特征,因此它们确实不应用于构建ML模型。如果没有非特征ID,则有四列。进行四次回归,每个回归都没有一个特征,并与拟合所有四列的结果进行比较。数据只有四列,这些技术似乎太难解决问题-正如我所指出的,使用特征消除比所有这些都要简单,因为彻底搜索消除一个特征意味着运行四个回归。数据只有四列,这些技术似乎太难解决问题-正如我所指出的,使用特征消除比所有这些都简单,因为彻底搜索消除一个特征意味着运行四个回归,如果有四列,彻底搜索以消除一个特征将意味着运行四个回归。是的,我正是在寻找回归的特征选择方法,在这个问题上没有使用正确的术语。感谢您指出了正确的方向。正如我所指出的,对于四列,彻底搜索以消除一个特征将意味着运行四个回归。是的,我正在寻找回归的特征选择方法,但在问题中没有使用正确的术语。谢谢你指出了正确的方向。