Nlp 在语言识别方面，Unigram比Ngram提供了更好的结果_Nlp_Naivebayes_N Gram_Categorization

Nlp 在语言识别方面，Unigram比Ngram提供了更好的结果

nlp

Nlp 在语言识别方面，Unigram比Ngram提供了更好的结果,nlp,naivebayes,n-gram,categorization,Nlp,Naivebayes,N Gram,Categorization,我有一个学校项目，包括从tweet数据集中识别tweet的每种语言。该数据集包含西班牙语、葡萄牙语、英语、巴斯克语、加利西亚语和加泰罗尼亚语的推文。这项任务是使用单图、双图和三元图实现一个语言识别模型，并分析每个模型的效率我理解ngrams的概念，我理解语言有点相似（因此这不是一项微不足道的任务），但我不理解的是，我对单图的结果比双图好，而对双图的结果比三联图好我不明白这是怎么可能的，因为我希望大图和三联图有更好的效率你能帮我解释一下为什么会这样吗谢谢您的时间。简短回答：高阶n-gram

我有一个学校项目，包括从tweet数据集中识别tweet的每种语言。该数据集包含西班牙语、葡萄牙语、英语、巴斯克语、加利西亚语和加泰罗尼亚语的推文。这项任务是使用单图、双图和三元图实现一个语言识别模型，并分析每个模型的效率

我理解ngrams的概念，我理解语言有点相似（因此这不是一项微不足道的任务），但我不理解的是，我对单图的结果比双图好，而对双图的结果比三联图好

我不明白这是怎么可能的，因为我希望大图和三联图有更好的效率

你能帮我解释一下为什么会这样吗

谢谢您的时间。

简短回答：高阶n-gram存在数据稀疏性问题。（我们倾向于用平滑的方法来解决这个问题。）这会使它们的信息量减少，因为有太多的信息是看不见的，如果没有更多的数据，就很难了解真实的数据分布

您注意到，较小的平滑量比较大的平滑量提供更好的性能。这是因为较低的级别可以让您更多地聆听数据。平滑类似于“先验信念”，但得到的计数代表实际数据。如果你太过平滑，现在你（几乎）完全忽略了你的数据！任何单格的概率都变得同样可能。

简单回答：高阶n-格存在数据稀疏性问题。（我们倾向于用平滑的方法来解决这个问题。）这会使它们的信息量减少，因为有太多的信息是看不见的，如果没有更多的数据，就很难了解真实的数据分布。但这并不是一个真正的调试问题，这已经解释得很清楚了。非常感谢。我现在正试图理解为什么较小的平滑值（如0.01）比较大的平滑值（如1.00）在n-gram时效果更好，因为我认为无论我们选择什么平滑值，它都应该被抵消，不是吗？（将此移到下面的答案。）