Python 在带注释的文本上使用NLTK方法，如标记化_Python_Python 3.x_Nltk_Tokenize

Python 在带注释的文本上使用NLTK方法，如标记化

python python-3.x

Python 在带注释的文本上使用NLTK方法，如标记化,python,python-3.x,nltk,tokenize,Python,Python 3.x,Nltk,Tokenize,假设我有一个注释文本的语料库，其中一个句子看起来像： txt = 'red foxes <emotion>scare</emption> me.' 用NLTK可以做到这一点吗？目前，我正在解析注释，然后在带外跟踪它们，这非常麻烦。要获得所需的结果，您不需要NLTK 只需运行txt.split（）如果您坚持使用nltk，请查看不同的选项 PunktWordTokenizer和WhitespaceTokenizerfit.正确，但想法是当我想做POS时，我可以简单地传入我

假设我有一个注释文本的语料库，其中一个句子看起来像：

txt = 'red foxes <emotion>scare</emption> me.'

用NLTK可以做到这一点吗？目前，我正在解析注释，然后在带外跟踪它们，这非常麻烦。

要获得所需的结果，您不需要

NLTK

只需运行

txt.split（）

如果您坚持使用

nltk

，请查看不同的选项

PunktWordTokenizer

和

WhitespaceTokenizer

fit.

正确，但想法是当我想做POS时，我可以简单地传入我的注释文本，让NLTK假装注释不存在。

['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']

txt = 'red foxes scare\_EMOTION me'