Algorithm 将缩写词提取为原始词的算法_Algorithm_Nlp_Text Analysis

Algorithm 将缩写词提取为原始词的算法

algorithm nlp

Algorithm 将缩写词提取为原始词的算法,algorithm,nlp,text-analysis,Algorithm,Nlp,Text Analysis,我正在建立一个程序来做一些文本分析我猜想，将一个缩写词解压成它的原始词将提高我分析的准确性。但我不知道如何实施它。我在谷歌上搜索过一点，但找不到任何讨论这个问题的文章或论文。（或者我只是不知道要搜索的关键词）基本上我需要的是：给定一个单词W，从字典中找到一个最有可能是W的未删节版本的单词（未删节单词列表）。或者，我希望算法与印度尼西亚语言兼容我的问题有点类似于这样的问题：，但这个问题并没有得到回答，尽管在2010年被问到了你知道吗？提前谢谢在没有任何印尼语知识的情况下，我的第一步是获

我正在建立一个程序来做一些文本分析

我猜想，将一个缩写词解压成它的原始词将提高我分析的准确性。但我不知道如何实施它。我在谷歌上搜索过一点，但找不到任何讨论这个问题的文章或论文。（或者我只是不知道要搜索的关键词）

基本上我需要的是：给定一个单词W，从字典中找到一个最有可能是W的未删节版本的单词（未删节单词列表）。或者，我希望算法与印度尼西亚语言兼容

我的问题有点类似于这样的问题：，但这个问题并没有得到回答，尽管在2010年被问到了

你知道吗？提前谢谢

在没有任何印尼语知识的情况下，我的第一步是获得一个常见缩写的列表，然后简单地查字典

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

如何决定选择哪一个扩展是它自己的问题。我能很快想出的例子很好，因为它们是不同的词类，所以在句子中形容词合适的地方选择形容词；但是在一般情况下，你只需要面对这样一个事实：一些缩写词是真正的模棱两可的，就像有模棱两可的词一样。毕竟，也许根本就不需要扩展这些功能

对于字典中没有的缩写词，我只需在单词列表中查找它们，也许是频率和/或词性信息，这样如果有几个前缀匹配，您就可以选择最可能/最流行的缩写词。如果没有这些信息，我会使用粗糙的启发式方法总是选择最短的匹配项。

在没有任何印尼语知识的情况下，我的第一步是获得一个常见缩写的列表，然后简单地进行字典查找

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

在没有任何印尼语知识的情况下，我的第一步是获得一个常见缩写的列表，然后简单地进行字典查找

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

在没有任何印尼语知识的情况下，我的第一步是获得一个常见缩写的列表，然后简单地进行字典查找

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

对于字典中没有的缩写词，我只需在单词列表中查找它们，也许是频率和/或词性信息，这样如果有几个前缀匹配，您就可以选择最可能/最流行的缩写词。如果没有这些信息，我会使用粗糙的启发式方法来选择最短的匹配项。

上下文就是所有带有缩写的内容。您的“最高概率”匹配几乎肯定是指缩写的上下文与扩展的（预期）上下文相匹配的匹配

当然，问题是有太多可能的上下文，正如某些缩写有几十种可能的扩展所示。试图定义缩写的上下文也有困难

你可以把它限制在10-20个不同的上下文中，然后做一个相当粗略的匹配。我相当肯定它会有很高的错误率。手动添加/验证上下文也需要大量的工作。

上下文就是所有带有缩写的东西。您的“最高概率”匹配几乎肯定是指缩写的上下文与扩展的（预期）上下文相匹配的匹配

当然，问题是有太多可能的上下文，正如某些缩写有几十种可能的扩展所示。试图定义缩写的上下文也有困难

你可以把它限制在10-20个不同的上下文中，然后做一个相当粗略的匹配。我相当肯定它会有很高的错误率。手动添加/验证上下文也需要大量的工作。

上下文就是所有带有缩写的东西。您的“最高概率”匹配几乎肯定是指缩写的上下文与（inte）匹配的匹配