Nlp 区分缩写词和简单大写词?

Nlp 区分缩写词和简单大写词?,nlp,classification,Nlp,Classification,我是NLP新手,我必须为我的NLP课做一个练习。基本上,我收到一个原始文本,其中包含缩写词(CRF、ABC等)和其他类型的大写词(食物、房子),我必须对它们进行分类 我不知道从哪里开始,你能告诉我一些算法吗?可以帮助我解决问题的随机方法?使用“常规”英语单词词典(Linux、WordNet等上的拼写dict),检查单词是否在词典中。第二,使用词性标记。如果这个词不是名词,就不太可能是首字母缩略词。最后,检查现有软件,如首字母缩写查找器和论文(在Google Scholar上搜索“首字母缩写检测”

我是NLP新手,我必须为我的NLP课做一个练习。基本上,我收到一个原始文本,其中包含缩写词(CRF、ABC等)和其他类型的大写词(食物、房子),我必须对它们进行分类


我不知道从哪里开始,你能告诉我一些算法吗?可以帮助我解决问题的随机方法?

使用“常规”英语单词词典(Linux、WordNet等上的拼写dict),检查单词是否在词典中。第二,使用词性标记。如果这个词不是名词,就不太可能是首字母缩略词。最后,检查现有软件,如首字母缩写查找器和论文(在Google Scholar上搜索“首字母缩写检测”)。

同意fnl。使用包含常用英语单词的词性并训练文本数据集。它将自动标记“无”、“动词”和“缩写”。pos有很多种,如果你能选择一种更接近文本数据的pos,那就更好了。
例如,为tweet提供pos

我同意,如果我只有缩写和名词,那么使用pos-tagger的想法会有所帮助,但如果我有其他错误的缩写,比如罗马字母(I、V、VI)或字母表中的单个字母(甲型肝炎、乙型肝炎或丙型肝炎),那该怎么办呢。pos标签是否也足以区分这些情况?