Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 机器学习-特征选择和训练数据_Machine Learning - Fatal编程技术网

Machine learning 机器学习-特征选择和训练数据

Machine learning 机器学习-特征选择和训练数据,machine-learning,Machine Learning,我已经建立了一个分类器,并希望将其精度提高到目前的73%以上 我开始使用卡方检验结合特征选择,但如何将选择的特征返回到训练数据中以构建分类器 如果我对每个训练数据进行比较,只选择出现在功能列表中的术语,这是否正确 我是否也需要对测试集数据执行相同的操作,这些都是看不见的示例 任何建议都将不胜感激。简单地说,功能选择本质上说(例如):“在输入向量的5个属性中,只有功能1、3、4有用。功能2、5是垃圾。不要使用它们。”。这适用于培训和测试模式,因为它们来自相同的分布。因此,您可以从训练和测试模式中删

我已经建立了一个分类器,并希望将其精度提高到目前的73%以上

我开始使用卡方检验结合特征选择,但如何将选择的特征返回到训练数据中以构建分类器

如果我对每个训练数据进行比较,只选择出现在功能列表中的术语,这是否正确

我是否也需要对测试集数据执行相同的操作,这些都是看不见的示例


任何建议都将不胜感激。

简单地说,功能选择本质上说(例如):“在输入向量的5个属性中,只有功能1、3、4有用。功能2、5是垃圾。不要使用它们。”。这适用于培训和测试模式,因为它们来自相同的分布。因此,您可以从训练和测试模式中删除特性2和5,然后以通常的方式训练和测试分类器


更一般地说,特征提取的要点(特征选择的超集)是将原始输入向量转换为更适合分类的不同输入向量。您将训练和测试模式都转换为新的形式,本质上是从原始模式创建新的问题。请注意,这些值可能会出现在原始模式中,也可能不会出现(它们可能是由原始模式中的函数和值的组合产生的),然后使用新的、经过转换的problme来训练和测试分类器

值得对blue\u Note的答案稍加补充

为了防止过度拟合并确保模型通用化,您应该在单独的开发集中测试功能选择策略。直觉是:如果您尝试大量不同的模型(即,在不同的特征子集中训练的分类器),很可能在训练集中,一些分类器会比其他分类器表现得更好。为了确保某个特定模型确实比其他模型更好,您需要在不同的集合中测试它,并使用培训期间未看到的示例