Python 使NLTK适用于UTF8标点符号?

Python 使NLTK适用于UTF8标点符号?,python,utf-8,nltk,Python,Utf 8,Nltk,我刚开始使用NLTK,我注意到它不适合非ascii标点符号。例如,“被标记为名词。此外,使用非ascii标点符号会弄乱其余单词的词性标记,因为NLTK将”解释为一个单词而不是标点符号 有没有一种设置可以让NLTK识别非ascii标点符号?因为只有一个非unicode标点符号会弄乱整个文档的词性标记,所以我不能用“替换每个”我不知道这样的设置 但我对非纯文本的词性标记也有类似的问题(文本之间添加了一些类似xml的标记)。这些xml标记通常没有正确的词性标记。因此,我在开始词性标记之前将它们取出,跟

我刚开始使用NLTK,我注意到它不适合非ascii标点符号。例如,
被标记为名词。此外,使用非ascii标点符号会弄乱其余单词的词性标记,因为NLTK将
解释为一个单词而不是标点符号


有没有一种设置可以让NLTK识别非ascii标点符号?因为只有一个非unicode标点符号会弄乱整个文档的词性标记,所以我不能用
替换每个
我不知道这样的设置

但我对非纯文本的词性标记也有类似的问题(文本之间添加了一些类似xml的标记)。这些xml标记通常没有正确的词性标记。因此,我在开始词性标记之前将它们取出,跟踪它们的索引,并在标记之后重新插入它们(然后手动为它们分配适当的标记)。
可以说,标点符号的存在与否不会对nltk的词性标记输出产生太大的影响,因此您可以尝试同样的方法。特别是因为我猜您的“有问题”标点符号集非常有限?

我不知道有这样的设置

但我对非纯文本的词性标记也有类似的问题(文本之间添加了一些类似xml的标记)。这些xml标记通常没有正确的词性标记。因此,我在开始词性标记之前将它们取出,跟踪它们的索引,并在标记之后重新插入它们(然后手动为它们分配适当的标记)。 可以说,标点符号的存在与否不会对nltk的词性标注输出产生太大的影响,因此您可以尝试同样的方法。特别是因为我猜您的“有问题”标点符号集非常有限