Nlp 区分单词和非单词的方法
我正在使用Stack exchange数据转储,并试图在语料库中识别独特和新颖的单词。我这样做是为了引用一个非常大的单词列表,并提取我的引用单词列表中不存在的单词 我遇到的问题是,许多唯一标记都是非单词,如目录名、错误代码和其他字符串 有没有一种很好的方法来区分类词字符串和非类词字符串Nlp 区分单词和非单词的方法,nlp,nltk,Nlp,Nltk,我正在使用Stack exchange数据转储,并试图在语料库中识别独特和新颖的单词。我这样做是为了引用一个非常大的单词列表,并提取我的引用单词列表中不存在的单词 我遇到的问题是,许多唯一标记都是非单词,如目录名、错误代码和其他字符串 有没有一种很好的方法来区分类词字符串和非类词字符串 我正在使用NLTK,但不限于该工具包 这是一个有趣的问题,因为很难定义是什么使字符组合成为单词。我建议使用有监督的机器学习。 首先,您需要从程序中获取当前输出,并手动将每个示例注释为word和非word。 然后,
我正在使用NLTK,但不限于该工具包 这是一个有趣的问题,因为很难定义是什么使字符组合成为单词。我建议使用有监督的机器学习。 首先,您需要从程序中获取当前输出,并手动将每个示例注释为word和非word。 然后,提出一些特性,例如
- 字符数
- 前三个字符
- 最后三个字符
- 先行词
- 下列词语