Nlp 如何计算序列中下一个最可能的字母,自然语言处理

Nlp 如何计算序列中下一个最可能的字母,自然语言处理,nlp,Nlp,我有序列AGCTTTTCGA,我被要求首先列出所有的单图和双图。据我所知,这些是正确的: 单位格: {A, G, C, T, T, T, C, G, A} 大人物: {AG, GC, CT, TT, TT, TC, CG, GA} 现在,我需要计算这个序列中的下一个最可能的字符,无论是单字符模式还是双字符模式。我知道可能性的公式是 p(w2 | w1)=计数(w1,w2)/计数(w1) 但是我不确定我将如何在这里使用它?您到底对什么感到困惑?您是否获得了每个单字符和双字符的计数?对不起,基本

我有序列
AGCTTTTCGA
,我被要求首先列出所有的单图和双图。据我所知,这些是正确的:

单位格:

{A, G, C, T, T, T, C, G, A}
大人物:

{AG, GC, CT, TT, TT, TC, CG, GA}
现在,我需要计算这个序列中的下一个最可能的字符,无论是单字符模式还是双字符模式。我知道可能性的公式是

p(w2 | w1)=计数(w1,w2)/计数(w1)


但是我不确定我将如何在这里使用它?

您到底对什么感到困惑?您是否获得了每个单字符和双字符的计数?对不起,基本上这个问题是问
count(w1,w2)
是什么意思?
count(w1,w2)
是语料库中
w2
跟随
w1
的次数(即双字符
w1w2
)。例如,
count(“T”,“C”)=1
,所以p(C | T)=1/3。所以我想我已经弄明白了,这两种情况下的下一个可能的字符是
G
,因为这是一个低语料库,意味着没有提供足够的
a
后面的字符示例。我猜想,使用双元模型,下一个可能的字符没有任何意义,因为之前没有给出在双元模型中字符从
GA
开始的场景,在
A
之后最有可能的字符是
G
事实上:P(G | A)=1,因为唯一出现的A后面跟着G。然而,在unigram场景中并非如此。在单字符模型中,下一个字符的概率不取决于前一个字符:最可能的字符是T,因为它是最常见的p(T)=3/9>2/9=p(a)=p(G)=p(C)。