Python 如何进行选择性介词标记nltk

Python 如何进行选择性介词标记nltk,python,nltk,tagging,pos,Python,Nltk,Tagging,Pos,NLTK介词标记包括许多单词,如-in、at、of、as、by、during。。。等等 我只想将选择性的单词(in、at、per)标记为“in” 其余的介词应该有不同的标记,比如说“ZZ”,意思是以后可以删除这些介词 例如: "ABCD achieved 2 million orders in September in Africa during summer sales. " Expected Output: in - should be tagged as IN in - should

NLTK介词标记包括许多单词,如-in、at、of、as、by、during。。。等等

我只想将选择性的单词(in、at、per)标记为“in”

其余的介词应该有不同的标记,比如说“ZZ”,意思是以后可以删除这些介词

例如:

"ABCD achieved 2 million orders in September in Africa during summer sales. "

Expected Output:
in - should be  tagged as IN
in - should be tagged as IN
during - should be tagged as ZZ

循环标记的输出,如果单词不在('IN','at','per'),则用ZZ替换IN。

您有两个选择:后处理标记者的输出(最简单的方法是,如果您始终可以根据标记的单词预测新标记),或者生成标记训练集并训练新标记者。这只有在存在上下文相关差异时才有意义,例如,如果“of”一词有时必须标记为“IN”,有时标记为其他词。