Nlp 不同<;s></s>&书信电报;unk>;kenlm和berkeleylm之间的概率

Nlp 不同<;s></s>&书信电报;unk>;kenlm和berkeleylm之间的概率,nlp,n-gram,kenlm,Nlp,N Gram,Kenlm,我使用kenlm和berkeleylm构建了ngram语言模型,但它们给出了非常不同的令牌概率 kenlm给出了: ngram 1=164482 ngram 2=4355352 ngram 3=15629476 \1-grams: -6.701107 <unk> 0 0 <s> -1.9270477 -1.8337007 </s> 0 ngram 1=164482 ngram 2=4355352 ngram 3=15629476 \1克

我使用kenlm和berkeleylm构建了ngram语言模型,但它们给出了非常不同的令牌概率

kenlm给出了:

ngram 1=164482
ngram 2=4355352
ngram 3=15629476

\1-grams:
-6.701107   <unk>   0
0   <s> -1.9270477
-1.8337007  </s>    0
ngram 1=164482 ngram 2=4355352 ngram 3=15629476 \1克: -6.701107 0 0 -1.9270477 -1.8337007 0 而伯克莱姆则给出:

\data\
ngram 1=164481
ngram 2=4291478
ngram 3=15629476

\1-grams:
-99.000000  <s> -2.079426
-1.833699   </s>
and no <unk> token probability
\data\
ngram 1=164481
ngram 2=4291478
ngram 3=15629476
\1克:
-99.000000   -2.079426
-1.833699   
而且没有象征性的概率
我想知道他们为什么会以不同的方式处理这些问题,以及这些差异如何导致不同的结果