Machine learning 机器学习-特征选择和训练数据_Machine Learning

Machine learning 机器学习-特征选择和训练数据

machine-learning

Machine learning 机器学习-特征选择和训练数据,machine-learning,Machine Learning,我已经建立了一个分类器，并希望将其精度提高到目前的73%以上我开始使用卡方检验结合特征选择，但如何将选择的特征返回到训练数据中以构建分类器如果我对每个训练数据进行比较，只选择出现在功能列表中的术语，这是否正确我是否也需要对测试集数据执行相同的操作，这些都是看不见的示例任何建议都将不胜感激。简单地说，功能选择本质上说（例如）：“在输入向量的5个属性中，只有功能1、3、4有用。功能2、5是垃圾。不要使用它们。”。这适用于培训和测试模式，因为它们来自相同的分布。因此，您可以从训练和测试模式中删

我已经建立了一个分类器，并希望将其精度提高到目前的73%以上

我开始使用卡方检验结合特征选择，但如何将选择的特征返回到训练数据中以构建分类器

如果我对每个训练数据进行比较，只选择出现在功能列表中的术语，这是否正确

我是否也需要对测试集数据执行相同的操作，这些都是看不见的示例

任何建议都将不胜感激。

简单地说，功能选择本质上说（例如）：“在输入向量的5个属性中，只有功能1、3、4有用。功能2、5是垃圾。不要使用它们。”。这适用于培训和测试模式，因为它们来自相同的分布。因此，您可以从训练和测试模式中删除特性2和5，然后以通常的方式训练和测试分类器

更一般地说，特征提取的要点（特征选择的超集）是将原始输入向量转换为更适合分类的不同输入向量。您将训练和测试模式都转换为新的形式，本质上是从原始模式创建新的问题。请注意，这些值可能会出现在原始模式中，也可能不会出现（它们可能是由原始模式中的函数和值的组合产生的），然后使用新的、经过转换的problme来训练和测试分类器

值得对blue\u Note的答案稍加补充

为了防止过度拟合并确保模型通用化，您应该在单独的开发集中测试功能选择策略。直觉是：如果您尝试大量不同的模型（即，在不同的特征子集中训练的分类器），很可能在训练集中，一些分类器会比其他分类器表现得更好。为了确保某个特定模型确实比其他模型更好，您需要在不同的集合中测试它，并使用培训期间未看到的示例