Nlp 区分单词和非单词的方法_Nlp_Nltk

Nlp 区分单词和非单词的方法

nlp

Nlp 区分单词和非单词的方法,nlp,nltk,Nlp,Nltk,我正在使用Stack exchange数据转储，并试图在语料库中识别独特和新颖的单词。我这样做是为了引用一个非常大的单词列表，并提取我的引用单词列表中不存在的单词我遇到的问题是，许多唯一标记都是非单词，如目录名、错误代码和其他字符串有没有一种很好的方法来区分类词字符串和非类词字符串我正在使用NLTK，但不限于该工具包这是一个有趣的问题，因为很难定义是什么使字符组合成为单词。我建议使用有监督的机器学习。首先，您需要从程序中获取当前输出，并手动将每个示例注释为word和非word。然后，

我正在使用Stack exchange数据转储，并试图在语料库中识别独特和新颖的单词。我这样做是为了引用一个非常大的单词列表，并提取我的引用单词列表中不存在的单词

我遇到的问题是，许多唯一标记都是非单词，如目录名、错误代码和其他字符串

有没有一种很好的方法来区分类词字符串和非类词字符串

我正在使用NLTK，但不限于该工具包

这是一个有趣的问题，因为很难定义是什么使字符组合成为单词。我建议使用有监督的机器学习。首先，您需要从程序中获取当前输出，并手动将每个示例注释为word和非word。然后，提出一些特性，例如

字符数
前三个字符
最后三个字符
先行词
下列词语

然后，使用像sci kit learn这样的库来创建一个训练模型，该模型可以捕捉这些差异，并可以预测任何字符序列的“字数”可能性