Python 如何使用NLTK标记包含标点符号的单词

Python 如何使用NLTK标记包含标点符号的单词,python,nltk,tokenize,Python,Nltk,Tokenize,我有一本书,文字是从网上刮来的招聘广告。我想用NLTK去掉这些技能 但我在第一个障碍上失败了,因为读者将“C”这个词标记为“C” 我确实想过滤掉噪音,比如停止词和标点符号,所以这是个问题 我该如何解决这个问题?答案是要么在使用语料库读取器之前清理字符串,要么使用替换方法将“C#”替换为类似“CSharp”的内容,要么训练标记器 那么,python中的基本字符串拆分如何?在plaintextcorpusreader的上下文中,举一个例子来说明您的意思如何?您在这里没有给出很多信息,因此很难准确地理

我有一本书,文字是从网上刮来的招聘广告。我想用NLTK去掉这些技能

但我在第一个障碍上失败了,因为读者将“C”这个词标记为“C”

我确实想过滤掉噪音,比如停止词和标点符号,所以这是个问题


我该如何解决这个问题?

答案是要么在使用语料库读取器之前清理字符串,要么使用替换方法将“C#”替换为类似“CSharp”的内容,要么训练标记器

那么,python中的基本字符串拆分如何?在plaintextcorpusreader的上下文中,举一个例子来说明您的意思如何?您在这里没有给出很多信息,因此很难准确地理解您想要什么。但是python中的任何字符串都可以调用.split()函数,您也可以使用正则表达式来解决这个问题。如果您需要一个更具体的答案,那么一些示例代码将非常有用。这是一个副本,有,请阅读。您也可以在标记化后清理您的列表。实际上,如果没有看到太多的示例数据,很难说哪种方法最有效和/或最不耗时