Python 在带注释的文本上使用NLTK方法,如标记化

Python 在带注释的文本上使用NLTK方法,如标记化,python,python-3.x,nltk,tokenize,Python,Python 3.x,Nltk,Tokenize,假设我有一个注释文本的语料库,其中一个句子看起来像: txt = 'red foxes <emotion>scare</emption> me.' 用NLTK可以做到这一点吗?目前,我正在解析注释,然后在带外跟踪它们,这非常麻烦。要获得所需的结果,您不需要NLTK 只需运行txt.split() 如果您坚持使用nltk,请查看不同的选项 PunktWordTokenizer和WhitespaceTokenizerfit.正确,但想法是当我想做POS时,我可以简单地传入我

假设我有一个注释文本的语料库,其中一个句子看起来像:

txt = 'red foxes <emotion>scare</emption> me.'

用NLTK可以做到这一点吗?目前,我正在解析注释,然后在带外跟踪它们,这非常麻烦。

要获得所需的结果,您不需要
NLTK

只需运行
txt.split()

如果您坚持使用
nltk
,请查看不同的选项


PunktWordTokenizer
WhitespaceTokenizer
fit.

正确,但想法是当我想做POS时,我可以简单地传入我的注释文本,让NLTK假装注释不存在。
['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']
txt = 'red foxes scare\_EMOTION me'