Nlp 在语言识别方面,Unigram比Ngram提供了更好的结果

Nlp 在语言识别方面,Unigram比Ngram提供了更好的结果,nlp,naivebayes,n-gram,categorization,Nlp,Naivebayes,N Gram,Categorization,我有一个学校项目,包括从tweet数据集中识别tweet的每种语言。该数据集包含西班牙语、葡萄牙语、英语、巴斯克语、加利西亚语和加泰罗尼亚语的推文。这项任务是使用单图、双图和三元图实现一个语言识别模型,并分析每个模型的效率 我理解ngrams的概念,我理解语言有点相似(因此这不是一项微不足道的任务),但我不理解的是,我对单图的结果比双图好,而对双图的结果比三联图好 我不明白这是怎么可能的,因为我希望大图和三联图有更好的效率 你能帮我解释一下为什么会这样吗 谢谢您的时间。简短回答:高阶n-gram

我有一个学校项目,包括从tweet数据集中识别tweet的每种语言。该数据集包含西班牙语、葡萄牙语、英语、巴斯克语、加利西亚语和加泰罗尼亚语的推文。这项任务是使用单图、双图和三元图实现一个语言识别模型,并分析每个模型的效率

我理解ngrams的概念,我理解语言有点相似(因此这不是一项微不足道的任务),但我不理解的是,我对单图的结果比双图好,而对双图的结果比三联图好

我不明白这是怎么可能的,因为我希望大图和三联图有更好的效率

你能帮我解释一下为什么会这样吗


谢谢您的时间。

简短回答:高阶n-gram存在数据稀疏性问题。(我们倾向于用平滑的方法来解决这个问题。)这会使它们的信息量减少,因为有太多的信息是看不见的,如果没有更多的数据,就很难了解真实的数据分布


您注意到,较小的平滑量比较大的平滑量提供更好的性能。这是因为较低的级别可以让您更多地聆听数据。平滑类似于“先验信念”,但得到的计数代表实际数据。如果你太过平滑,现在你(几乎)完全忽略了你的数据!任何单格的概率都变得同样可能。

简单回答:高阶n-格存在数据稀疏性问题。(我们倾向于用平滑的方法来解决这个问题。)这会使它们的信息量减少,因为有太多的信息是看不见的,如果没有更多的数据,就很难了解真实的数据分布。但这并不是一个真正的调试问题,这已经解释得很清楚了。非常感谢。我现在正试图理解为什么较小的平滑值(如0.01)比较大的平滑值(如1.00)在n-gram时效果更好,因为我认为无论我们选择什么平滑值,它都应该被抵消,不是吗?(将此移到下面的答案。)