Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何删除NLP中的非单词字符_Python_Nltk - Fatal编程技术网

Python 如何删除NLP中的非单词字符

Python 如何删除NLP中的非单词字符,python,nltk,Python,Nltk,我的正则表达式代码有问题 round1 = re.sub('\W+', '\n', stringFilter ) 它不会删除非单词字符 范例 输出:s,word,does,au 清理输出:word,does也许你可以在NLP管道中做一些花哨的事情(),比如过滤掉没有POS标签的单词,柠檬化等等。你也可以在NLTK中检查语料库,如果单词不在其中,你可以丢弃它。这是否回答了你的问题?您可以使用nltk库。我现在没有安装它,但它应该可以工作。@DavideFiocco不,它具有与正则表达式和语料库单

我的正则表达式代码有问题

round1 = re.sub('\W+', '\n', stringFilter )
它不会删除非单词字符

范例 输出:s,word,does,au


清理输出:word,does

也许你可以在NLP管道中做一些花哨的事情(),比如过滤掉没有POS标签的单词,柠檬化等等。你也可以在NLTK中检查语料库,如果单词不在其中,你可以丢弃它。

这是否回答了你的问题?您可以使用nltk库。我现在没有安装它,但它应该可以工作。@DavideFiocco不,它具有与正则表达式和语料库单词相同的功能,它仍然可以识别“s”作为英语单词,即使它不是一个单词。@mulaixi我已经在使用NLTK了,但你指的是什么样的库,仍在尝试Corpus.words,但我仍然无法删除“s”字符和其他字符如果nltk不能满足,我不知道什么可以满足。也许你可以查一下spacy。你可以和它的词汇相比较@AkioSaito我已经完成了标记化和柠檬化stopwords的工作,我一直在尝试copus.words(),但仍然会得到像“s”这样的字母/字符。我的代码是:如果数据在文字:打印(数据)。我在想我应该如何过滤或清理这些数据是的,我尝试了柠檬化和词性标注,但我认为这不管用。如果是这样,你可以按照@mulaixi的建议试试。这可能也有帮助。也许你能告诉我们nltk有什么问题?