Machine learning 忽略测试数据缺失词特征的方法

Machine learning 忽略测试数据缺失词特征的方法,machine-learning,nlp,classification,missing-data,Machine Learning,Nlp,Classification,Missing Data,我正在处理一个文本分类问题,我遇到了一些功能缺少值的问题 我在根据标注的训练数据计算单词的类概率 比如, 让单词foo属于A类100次,属于B类200次。在本例中,我发现类概率向量为[0.33,0.67],并将其与单词本身一起提供给分类器 问题是,在测试集中,有一些单词在训练数据中没有出现,所以它们没有概率向量 我能为这个问题做些什么 我试着给出所有单词缺失值的平均类概率向量,但这并没有提高准确性 是否有一种方法可以使分类器在评估过程中忽略某些特征,而只是针对没有给定特征值的特定实例 关于实现这

我正在处理一个文本分类问题,我遇到了一些功能缺少值的问题

我在根据标注的训练数据计算单词的类概率

比如,

让单词foo属于A类100次,属于B类200次。在本例中,我发现类概率向量为[0.33,0.67],并将其与单词本身一起提供给分类器

问题是,在测试集中,有一些单词在训练数据中没有出现,所以它们没有概率向量

我能为这个问题做些什么

我试着给出所有单词缺失值的平均类概率向量,但这并没有提高准确性

是否有一种方法可以使分类器在评估过程中忽略某些特征,而只是针对没有给定特征值的特定实例


关于

实现这一点有很多方法

  • 为您拥有的所有特征子集创建和训练分类器。您可以使用和主分类器的tre训练相同的数据在子集上训练分类器
对于每个样本,只需查看其具有的特征,并使用更适合他的分类器即可。不要试图用Those分类器做一些增强

  • 只需为无法分类的样本创建一个特殊类。或者你的实验结果太差,功能太少
有时人类也无法成功地对样本进行分类。在许多情况下,不能分类的样本应该被忽略。问题不在于分类器,而在于输入,或者可以通过上下文进行解释

  • 从nlp的角度来看,许多单词的含义/用法在许多应用中非常相似。所以,您可以使用词干/柠檬化来创建单词类
你也可以使用句法纠正、同义词、翻译(这个词来自世界的另一个地方吗?)

  • 若这个问题对你们来说非常重要,那个么你们将以前面三点的组合结束

    • 实现这一目标有很多方法

      • 为您拥有的所有特征子集创建和训练分类器。您可以使用和主分类器的tre训练相同的数据在子集上训练分类器
      对于每个样本,只需查看其具有的特征,并使用更适合他的分类器即可。不要试图用Those分类器做一些增强

      • 只需为无法分类的样本创建一个特殊类。或者你的实验结果太差,功能太少
      有时人类也无法成功地对样本进行分类。在许多情况下,不能分类的样本应该被忽略。问题不在于分类器,而在于输入,或者可以通过上下文进行解释

      • 从nlp的角度来看,许多单词的含义/用法在许多应用中非常相似。所以,您可以使用词干/柠檬化来创建单词类
      你也可以使用句法纠正、同义词、翻译(这个词来自世界的另一个地方吗?)

      • 若这个问题对你们来说非常重要,那个么你们将以前面三点的组合结束