Python 使NLTK适用于UTF8标点符号？_Python_Utf 8_Nltk

Python 使NLTK适用于UTF8标点符号？

python utf-8

Python 使NLTK适用于UTF8标点符号？,python,utf-8,nltk,Python,Utf 8,Nltk,我刚开始使用NLTK，我注意到它不适合非ascii标点符号。例如，“被标记为名词。此外，使用非ascii标点符号会弄乱其余单词的词性标记，因为NLTK将”解释为一个单词而不是标点符号有没有一种设置可以让NLTK识别非ascii标点符号？因为只有一个非unicode标点符号会弄乱整个文档的词性标记，所以我不能用“替换每个”我不知道这样的设置但我对非纯文本的词性标记也有类似的问题（文本之间添加了一些类似xml的标记）。这些xml标记通常没有正确的词性标记。因此，我在开始词性标记之前将它们取出，跟

我刚开始使用NLTK，我注意到它不适合非ascii标点符号。例如，

“

被标记为名词。此外，使用非ascii标点符号会弄乱其余单词的词性标记，因为NLTK将

”

解释为一个单词而不是标点符号

有没有一种设置可以让NLTK识别非ascii标点符号？因为只有一个非unicode标点符号会弄乱整个文档的词性标记，所以我不能用

“

替换每个

”

我不知道这样的设置

但我对非纯文本的词性标记也有类似的问题（文本之间添加了一些类似xml的标记）。这些xml标记通常没有正确的词性标记。因此，我在开始词性标记之前将它们取出，跟踪它们的索引，并在标记之后重新插入它们（然后手动为它们分配适当的标记）。

可以说，标点符号的存在与否不会对nltk的词性标记输出产生太大的影响，因此您可以尝试同样的方法。特别是因为我猜您的“有问题”标点符号集非常有限？

我不知道有这样的设置

但我对非纯文本的词性标记也有类似的问题（文本之间添加了一些类似xml的标记）。这些xml标记通常没有正确的词性标记。因此，我在开始词性标记之前将它们取出，跟踪它们的索引，并在标记之后重新插入它们（然后手动为它们分配适当的标记）。可以说，标点符号的存在与否不会对nltk的词性标注输出产生太大的影响，因此您可以尝试同样的方法。特别是因为我猜您的“有问题”标点符号集非常有限