Nlp 如何计算序列中下一个最可能的字母，自然语言处理_Nlp

Nlp 如何计算序列中下一个最可能的字母，自然语言处理

nlp

Nlp 如何计算序列中下一个最可能的字母，自然语言处理,nlp,Nlp,我有序列AGCTTTTCGA，我被要求首先列出所有的单图和双图。据我所知，这些是正确的：单位格： {A, G, C, T, T, T, C, G, A} 大人物： {AG, GC, CT, TT, TT, TC, CG, GA} 现在，我需要计算这个序列中的下一个最可能的字符，无论是单字符模式还是双字符模式。我知道可能性的公式是 p（w2 | w1）=计数（w1，w2）/计数（w1）但是我不确定我将如何在这里使用它？您到底对什么感到困惑？您是否获得了每个单字符和双字符的计数？对不起，基本

我有序列

AGCTTTTCGA

，我被要求首先列出所有的单图和双图。据我所知，这些是正确的：

单位格：

{A, G, C, T, T, T, C, G, A}

大人物：

{AG, GC, CT, TT, TT, TC, CG, GA}

现在，我需要计算这个序列中的下一个最可能的字符，无论是单字符模式还是双字符模式。我知道可能性的公式是

p（w2 | w1）=计数（w1，w2）/计数（w1）

但是我不确定我将如何在这里使用它？

您到底对什么感到困惑？您是否获得了每个单字符和双字符的计数？对不起，基本上这个问题是问

count（w1，w2）

是什么意思？

count（w1，w2）

是语料库中

w2

跟随

w1

的次数（即双字符

w1w2

）。例如，

count（“T”，“C”）=1

，所以p（C | T）=1/3。所以我想我已经弄明白了，这两种情况下的下一个可能的字符是

，因为这是一个低语料库，意味着没有提供足够的

后面的字符示例。我猜想，使用双元模型，下一个可能的字符没有任何意义，因为之前没有给出在双元模型中字符从

GA

开始的场景，在

之后最有可能的字符是

事实上：P（G | A）=1，因为唯一出现的A后面跟着G。然而，在unigram场景中并非如此。在单字符模型中，下一个字符的概率不取决于前一个字符：最可能的字符是T，因为它是最常见的p（T）=3/9>2/9=p（a）=p（G）=p（C）。