Algorithm 将缩写词提取为原始词的算法

Algorithm 将缩写词提取为原始词的算法,algorithm,nlp,text-analysis,Algorithm,Nlp,Text Analysis,我正在建立一个程序来做一些文本分析 我猜想,将一个缩写词解压成它的原始词将提高我分析的准确性。 但我不知道如何实施它。我在谷歌上搜索过一点,但找不到任何讨论这个问题的文章或论文。(或者我只是不知道要搜索的关键词) 基本上我需要的是:给定一个单词W,从字典中找到一个最有可能是W的未删节版本的单词(未删节单词列表)。或者,我希望算法与印度尼西亚语言兼容 我的问题有点类似于这样的问题:,但这个问题并没有得到回答,尽管在2010年被问到了 你知道吗?提前谢谢 在没有任何印尼语知识的情况下,我的第一步是获

我正在建立一个程序来做一些文本分析

我猜想,将一个缩写词解压成它的原始词将提高我分析的准确性。 但我不知道如何实施它。我在谷歌上搜索过一点,但找不到任何讨论这个问题的文章或论文。(或者我只是不知道要搜索的关键词)

基本上我需要的是:给定一个单词W,从字典中找到一个最有可能是W的未删节版本的单词(未删节单词列表)。或者,我希望算法与印度尼西亚语言兼容

我的问题有点类似于这样的问题:,但这个问题并没有得到回答,尽管在2010年被问到了


你知道吗?提前谢谢

在没有任何印尼语知识的情况下,我的第一步是获得一个常见缩写的列表,然后简单地查字典

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation
如何决定选择哪一个扩展是它自己的问题。我能很快想出的例子很好,因为它们是不同的词类,所以在句子中形容词合适的地方选择形容词;但是在一般情况下,你只需要面对这样一个事实:一些缩写词是真正的模棱两可的,就像有模棱两可的词一样。毕竟,也许根本就不需要扩展这些功能


对于字典中没有的缩写词,我只需在单词列表中查找它们,也许是频率和/或词性信息,这样如果有几个前缀匹配,您就可以选择最可能/最流行的缩写词。如果没有这些信息,我会使用粗糙的启发式方法总是选择最短的匹配项。

在没有任何印尼语知识的情况下,我的第一步是获得一个常见缩写的列表,然后简单地进行字典查找

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation
如何决定选择哪一个扩展是它自己的问题。我能很快想出的例子很好,因为它们是不同的词类,所以在句子中形容词合适的地方选择形容词;但是在一般情况下,你只需要面对这样一个事实:一些缩写词是真正的模棱两可的,就像有模棱两可的词一样。毕竟,也许根本就不需要扩展这些功能


对于字典中没有的缩写词,我只需在单词列表中查找它们,也许是频率和/或词性信息,这样如果有几个前缀匹配,您就可以选择最可能/最流行的缩写词。如果没有这些信息,我会使用粗糙的启发式方法总是选择最短的匹配项。

在没有任何印尼语知识的情况下,我的第一步是获得一个常见缩写的列表,然后简单地进行字典查找

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation
如何决定选择哪一个扩展是它自己的问题。我能很快想出的例子很好,因为它们是不同的词类,所以在句子中形容词合适的地方选择形容词;但是在一般情况下,你只需要面对这样一个事实:一些缩写词是真正的模棱两可的,就像有模棱两可的词一样。毕竟,也许根本就不需要扩展这些功能


对于字典中没有的缩写词,我只需在单词列表中查找它们,也许是频率和/或词性信息,这样如果有几个前缀匹配,您就可以选择最可能/最流行的缩写词。如果没有这些信息,我会使用粗糙的启发式方法总是选择最短的匹配项。

在没有任何印尼语知识的情况下,我的第一步是获得一个常见缩写的列表,然后简单地进行字典查找

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation
如何决定选择哪一个扩展是它自己的问题。我能很快想出的例子很好,因为它们是不同的词类,所以在句子中形容词合适的地方选择形容词;但是在一般情况下,你只需要面对这样一个事实:一些缩写词是真正的模棱两可的,就像有模棱两可的词一样。毕竟,也许根本就不需要扩展这些功能


对于字典中没有的缩写词,我只需在单词列表中查找它们,也许是频率和/或词性信息,这样如果有几个前缀匹配,您就可以选择最可能/最流行的缩写词。如果没有这些信息,我会使用粗糙的启发式方法来选择最短的匹配项。

上下文就是所有带有缩写的内容。您的“最高概率”匹配几乎肯定是指缩写的上下文与扩展的(预期)上下文相匹配的匹配

当然,问题是有太多可能的上下文,正如某些缩写有几十种可能的扩展所示。试图定义缩写的上下文也有困难


你可以把它限制在10-20个不同的上下文中,然后做一个相当粗略的匹配。我相当肯定它会有很高的错误率。手动添加/验证上下文也需要大量的工作。

上下文就是所有带有缩写的东西。您的“最高概率”匹配几乎肯定是指缩写的上下文与扩展的(预期)上下文相匹配的匹配

当然,问题是有太多可能的上下文,正如某些缩写有几十种可能的扩展所示。试图定义缩写的上下文也有困难


你可以把它限制在10-20个不同的上下文中,然后做一个相当粗略的匹配。我相当肯定它会有很高的错误率。手动添加/验证上下文也需要大量的工作。

上下文就是所有带有缩写的东西。您的“最高概率”匹配几乎肯定是指缩写的上下文与(inte)匹配的匹配