Nlp 如何从混淆矩阵计算概率?需要分母,chars矩阵

Nlp 如何从混淆矩阵计算概率?需要分母,chars矩阵,nlp,machine-learning,stanford-nlp,opennlp,confusion-matrix,Nlp,Machine Learning,Stanford Nlp,Opennlp,Confusion Matrix,包含嘈杂通道中拼写错误的混淆矩阵。它描述了如何基于条件属性更正错误 条件概率计算见第2页左栏。在第2页左列脚注4中,作者说:“chars矩阵可以很容易地复制,因此在附录中被省略。”我不知道如何复制它们 如何复制它们?我需要原始语料库吗?或者,作者的意思是可以从论文本身的材料中重新计算它们吗?看这篇论文,你只需要使用语料库计算它们,要么是相同的语料库,要么是与你的应用程序相关的语料库 在复制矩阵时,请注意,它们隐式定义了两个不同的字符矩阵:向量和n×n矩阵。对于每个字符x,向量chars包含字符x

包含嘈杂通道中拼写错误的混淆矩阵。它描述了如何基于条件属性更正错误

条件概率计算见第2页左栏。在第2页左列脚注4中,作者说:“chars矩阵可以很容易地复制,因此在附录中被省略。”我不知道如何复制它们


如何复制它们?我需要原始语料库吗?或者,作者的意思是可以从论文本身的材料中重新计算它们吗?

看这篇论文,你只需要使用语料库计算它们,要么是相同的语料库,要么是与你的应用程序相关的语料库

在复制矩阵时,请注意,它们隐式定义了两个不同的
字符
矩阵:向量和n×n矩阵。对于每个字符
x
,向量
chars
包含字符
x
在语料库中出现的次数计数。对于每个字符序列
xy
,矩阵
chars
包含该序列在语料库中出现的次数计数

chars[x]
表示在向量中查找
x
chars[x,y]
表示在矩阵中查找序列
xy
。请注意,
chars[x]
=每个
y
值的
chars[x,y]
总和


请注意,它们的计数都基于1988年美联社新闻专线语料库()。如果你不能使用他们的准确语料库,我认为使用来自同一类型的另一个文本(即另一个新闻专线语料库)并调整你的数量以使其符合原始数据是不合理的。也就是说,如果给定字符的频率足够相似,那么它们在不同文本之间的变化不会太大。因此,如果你拥有2200万字的新闻专线语料库,你可以计算该文本中的字符数,然后将其加倍以近似其原始计数。

如果不是相同的语料库,那么如何计算概率呢?分子和分母应该是“相容的”——不是吗?否则,根据分子语料库和分母语料库的不同,除法可能会产生非常不同的概率。如果您使用相似大小的相似语料库(即新闻专线文本之一),您可能会假设字符和字符序列的出现频率与原始语料库中的频率大致相同。(我四处看看,看看1988年的新闻专线语料库是否可以在任何地方下载,但你可能会重新计算其他矩阵。)看起来1988年的数据是LDC提供的告密者语料库的一部分:谢谢你的数据链接。但是如果你对“相似语料库”的评论,问题是这篇文章没有给出任何频率;它能算数。要从计数中获取频率,您需要基于原始语料库的chars数组(我认为)。如果你有频率,那么你不需要任何其他信息。我是对的吗?我的推理基本上是这样的:一个相似的语料库(例如,相同的体裁)应该有相似的字符频率。他们说1988年美联社新闻通讯社的语料库有大约4400万字,所以如果你使用2200万字的新闻通讯社语料库,并将你的数量加倍,你可能会得到一个合理的近似值。