Machine learning 忽略测试数据缺失词特征的方法
我正在处理一个文本分类问题,我遇到了一些功能缺少值的问题 我在根据标注的训练数据计算单词的类概率 比如, 让单词foo属于A类100次,属于B类200次。在本例中,我发现类概率向量为[0.33,0.67],并将其与单词本身一起提供给分类器 问题是,在测试集中,有一些单词在训练数据中没有出现,所以它们没有概率向量 我能为这个问题做些什么 我试着给出所有单词缺失值的平均类概率向量,但这并没有提高准确性 是否有一种方法可以使分类器在评估过程中忽略某些特征,而只是针对没有给定特征值的特定实例Machine learning 忽略测试数据缺失词特征的方法,machine-learning,nlp,classification,missing-data,Machine Learning,Nlp,Classification,Missing Data,我正在处理一个文本分类问题,我遇到了一些功能缺少值的问题 我在根据标注的训练数据计算单词的类概率 比如, 让单词foo属于A类100次,属于B类200次。在本例中,我发现类概率向量为[0.33,0.67],并将其与单词本身一起提供给分类器 问题是,在测试集中,有一些单词在训练数据中没有出现,所以它们没有概率向量 我能为这个问题做些什么 我试着给出所有单词缺失值的平均类概率向量,但这并没有提高准确性 是否有一种方法可以使分类器在评估过程中忽略某些特征,而只是针对没有给定特征值的特定实例 关于实现这
关于实现这一点有很多方法
- 为您拥有的所有特征子集创建和训练分类器。您可以使用和主分类器的tre训练相同的数据在子集上训练分类器
- 只需为无法分类的样本创建一个特殊类。或者你的实验结果太差,功能太少
- 从nlp的角度来看,许多单词的含义/用法在许多应用中非常相似。所以,您可以使用词干/柠檬化来创建单词类李>
- 若这个问题对你们来说非常重要,那个么你们将以前面三点的组合结束
- 为您拥有的所有特征子集创建和训练分类器。您可以使用和主分类器的tre训练相同的数据在子集上训练分类器
- 只需为无法分类的样本创建一个特殊类。或者你的实验结果太差,功能太少
- 从nlp的角度来看,许多单词的含义/用法在许多应用中非常相似。所以,您可以使用词干/柠檬化来创建单词类李>
- 若这个问题对你们来说非常重要,那个么你们将以前面三点的组合结束
- 实现这一目标有很多方法