Nlp 区分单词和非单词的方法

Nlp 区分单词和非单词的方法,nlp,nltk,Nlp,Nltk,我正在使用Stack exchange数据转储,并试图在语料库中识别独特和新颖的单词。我这样做是为了引用一个非常大的单词列表,并提取我的引用单词列表中不存在的单词 我遇到的问题是,许多唯一标记都是非单词,如目录名、错误代码和其他字符串 有没有一种很好的方法来区分类词字符串和非类词字符串 我正在使用NLTK,但不限于该工具包 这是一个有趣的问题,因为很难定义是什么使字符组合成为单词。我建议使用有监督的机器学习。 首先,您需要从程序中获取当前输出,并手动将每个示例注释为word和非word。 然后,

我正在使用Stack exchange数据转储,并试图在语料库中识别独特和新颖的单词。我这样做是为了引用一个非常大的单词列表,并提取我的引用单词列表中不存在的单词

我遇到的问题是,许多唯一标记都是非单词,如目录名、错误代码和其他字符串

有没有一种很好的方法来区分类词字符串和非类词字符串


我正在使用NLTK,但不限于该工具包

这是一个有趣的问题,因为很难定义是什么使字符组合成为单词。我建议使用有监督的机器学习。 首先,您需要从程序中获取当前输出,并手动将每个示例注释为word和非word。 然后,提出一些特性,例如

  • 字符数
  • 前三个字符
  • 最后三个字符
  • 先行词
  • 下列词语
然后,使用像sci kit learn这样的库来创建一个训练模型,该模型可以捕捉这些差异,并可以预测任何字符序列的“字数”可能性

在这里,单类分类器可能很有用。但在任何情况下,都要准备一些数据,以便您可以评估此方法或任何其他方法的准确性