Machine learning 忽略测试数据缺失词特征的方法_Machine Learning_Nlp_Classification_Missing Data

Machine learning 忽略测试数据缺失词特征的方法

machine-learning nlp

Machine learning 忽略测试数据缺失词特征的方法,machine-learning,nlp,classification,missing-data,Machine Learning,Nlp,Classification,Missing Data,我正在处理一个文本分类问题，我遇到了一些功能缺少值的问题我在根据标注的训练数据计算单词的类概率比如, 让单词foo属于A类100次，属于B类200次。在本例中，我发现类概率向量为[0.33,0.67]，并将其与单词本身一起提供给分类器问题是，在测试集中，有一些单词在训练数据中没有出现，所以它们没有概率向量我能为这个问题做些什么我试着给出所有单词缺失值的平均类概率向量，但这并没有提高准确性是否有一种方法可以使分类器在评估过程中忽略某些特征，而只是针对没有给定特征值的特定实例关于实现这

我正在处理一个文本分类问题，我遇到了一些功能缺少值的问题

我在根据标注的训练数据计算单词的类概率

比如,

让单词foo属于A类100次，属于B类200次。在本例中，我发现类概率向量为[0.33,0.67]，并将其与单词本身一起提供给分类器

问题是，在测试集中，有一些单词在训练数据中没有出现，所以它们没有概率向量

我能为这个问题做些什么

我试着给出所有单词缺失值的平均类概率向量，但这并没有提高准确性

是否有一种方法可以使分类器在评估过程中忽略某些特征，而只是针对没有给定特征值的特定实例

关于

实现这一点有很多方法

为您拥有的所有特征子集创建和训练分类器。您可以使用和主分类器的tre训练相同的数据在子集上训练分类器

对于每个样本，只需查看其具有的特征，并使用更适合他的分类器即可。不要试图用Those分类器做一些增强

只需为无法分类的样本创建一个特殊类。或者你的实验结果太差，功能太少

有时人类也无法成功地对样本进行分类。在许多情况下，不能分类的样本应该被忽略。问题不在于分类器，而在于输入，或者可以通过上下文进行解释

从nlp的角度来看，许多单词的含义/用法在许多应用中非常相似。所以，您可以使用词干/柠檬化来创建单词类

你也可以使用句法纠正、同义词、翻译（这个词来自世界的另一个地方吗？）

若这个问题对你们来说非常重要，那个么你们将以前面三点的组合结束

为您拥有的所有特征子集创建和训练分类器。您可以使用和主分类器的tre训练相同的数据在子集上训练分类器

只需为无法分类的样本创建一个特殊类。或者你的实验结果太差，功能太少

从nlp的角度来看，许多单词的含义/用法在许多应用中非常相似。所以，您可以使用词干/柠檬化来创建单词类

若这个问题对你们来说非常重要，那个么你们将以前面三点的组合结束