Nlp “是什么意思?”;英语的孤立符号概率;

Nlp “是什么意思?”;英语的孤立符号概率;,nlp,entropy,Nlp,Entropy,在一张便条中,我发现了这样一句话: 使用英语语言的孤立符号概率,你可以找出语言的熵 “孤立符号概率”的真正含义是什么?这与信息源的熵有关。知道音符来自何处以及上下文是什么会很有帮助,但即使没有这一点,我确信这仅仅意味着他们使用单个符号(例如字符)的频率作为熵的基础,而不是例如联合概率(指字符序列)或(一个特定字符跟随另一个字符的)条件概率 因此,如果你有一个字母表X={a,b,c,…,z}和一个概率p(a),p(b),…对于文本中出现的每个字符(例如,基于数据示例中发现的频率),你可以通过计算-

在一张便条中,我发现了这样一句话:

使用英语语言的孤立符号概率,你可以找出语言的熵


“孤立符号概率”的真正含义是什么?这与信息源的熵有关。

知道音符来自何处以及上下文是什么会很有帮助,但即使没有这一点,我确信这仅仅意味着他们使用单个符号(例如字符)的频率作为熵的基础,而不是例如联合概率(指字符序列)或(一个特定字符跟随另一个字符的)条件概率

因此,如果你有一个字母表X={a,b,c,…,z}和一个概率p(a),p(b),…对于文本中出现的每个字符(例如,基于数据示例中发现的频率),你可以通过计算-p(X)*log(p(X))来计算熵然后,显然,你会单独使用每个字符的概率,而不是上下文中每个字符的概率


但是,请注意,您找到的注释中的术语符号不一定指字符。它可能指单词或其他文本单位。然而,他们提出的观点是,他们将熵的经典公式应用于单个事件的概率(字符、单词等),不是复杂或有条件事件的概率。

这可能与在英语文本中找到某些符号的概率有关。英语中的一些符号使用得更频繁,例如符号“e”或“a”。