Python 在带注释的文本上使用NLTK方法,如标记化
假设我有一个注释文本的语料库,其中一个句子看起来像:Python 在带注释的文本上使用NLTK方法,如标记化,python,python-3.x,nltk,tokenize,Python,Python 3.x,Nltk,Tokenize,假设我有一个注释文本的语料库,其中一个句子看起来像: txt = 'red foxes <emotion>scare</emption> me.' 用NLTK可以做到这一点吗?目前,我正在解析注释,然后在带外跟踪它们,这非常麻烦。要获得所需的结果,您不需要NLTK 只需运行txt.split() 如果您坚持使用nltk,请查看不同的选项 PunktWordTokenizer和WhitespaceTokenizerfit.正确,但想法是当我想做POS时,我可以简单地传入我
txt = 'red foxes <emotion>scare</emption> me.'
用NLTK可以做到这一点吗?目前,我正在解析注释,然后在带外跟踪它们,这非常麻烦。要获得所需的结果,您不需要
NLTK
只需运行txt.split()
如果您坚持使用nltk
,请查看不同的选项
PunktWordTokenizer
和WhitespaceTokenizer
fit.正确,但想法是当我想做POS时,我可以简单地传入我的注释文本,让NLTK假装注释不存在。
['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']
txt = 'red foxes scare\_EMOTION me'