Statistics 如何计算n-gram模型中使用的绝对折扣?

Statistics 如何计算n-gram模型中使用的绝对折扣?,statistics,n-gram,Statistics,N Gram,我可以问一些关于实施绝对折扣的问题吗?谢谢你的帮助 我的毕业设计是关于n-gram语言模型的,我尝试了绝对折扣。我参考的公式如下: 然而,由我的程序打印的后退重量的结果与由ngram count生成的ARPA文件不同。我想这是我对公式的误解造成的。我是这样理解的。假设要计算弓(a,b): 其中N(ab)表示唯一的N-gram的数量,如“abc”和“abd” 我说得对吗?说到弓(a),既然“a”中没有后缀,那么如何计算分母呢 提前谢谢 我找到了我自己问题的关键因素。那太好了!答案如下: 发布的公式

我可以问一些关于实施绝对折扣的问题吗?谢谢你的帮助

我的毕业设计是关于n-gram语言模型的,我尝试了绝对折扣。我参考的公式如下:

然而,由我的程序打印的后退重量的结果与由ngram count生成的ARPA文件不同。我想这是我对公式的误解造成的。我是这样理解的。假设要计算弓(a,b):

其中N(ab)表示唯一的N-gram的数量,如“abc”和“abd”

我说得对吗?说到弓(a),既然“a”中没有后缀,那么如何计算分母呢


提前谢谢

我找到了我自己问题的关键因素。那太好了!答案如下:

发布的公式是错误的

bow(ab) = (1 - Sum_Z1 f(abz)) / (1 - Sum_Z1 f(bz)) = (N(ab) / C(ab)) / (N(b) / C(b))
正确的答案是

bow(ab) = (1 - Sum_Z1 f(abz)) / (1 - Sum_Z1 f(bz)) = (N(ab) * D / C(ab)) / (1 - Sum_Z1 f(bz))

我找到了我自己问题的关键因素。那太好了!答案如下:

发布的公式是错误的

bow(ab) = (1 - Sum_Z1 f(abz)) / (1 - Sum_Z1 f(bz)) = (N(ab) / C(ab)) / (N(b) / C(b))
正确的答案是

bow(ab) = (1 - Sum_Z1 f(abz)) / (1 - Sum_Z1 f(bz)) = (N(ab) * D / C(ab)) / (1 - Sum_Z1 f(bz))

这个问题更具概念性,因此适用于stats.stackexchange.com。也就是说,请记住,实际实现的细节往往不同,因此即使您实现的是“相同”模型,您得到的输出数字也不完全相同。@RobertDodier,谢谢您的建议。这个问题更具概念性,因此适用于stats.stackexchange.com。也就是说,请记住,实际实现的细节往往不同,因此即使您实现的是“相同”模型,您得到的输出数字也不完全相同。@RobertDodier,谢谢您的建议。