Python 如何使用NLTK标记包含标点符号的单词_Python_Nltk_Tokenize

Python 如何使用NLTK标记包含标点符号的单词

python

Python 如何使用NLTK标记包含标点符号的单词,python,nltk,tokenize,Python,Nltk,Tokenize,我有一本书，文字是从网上刮来的招聘广告。我想用NLTK去掉这些技能但我在第一个障碍上失败了，因为读者将“C”这个词标记为“C” 我确实想过滤掉噪音，比如停止词和标点符号，所以这是个问题我该如何解决这个问题？答案是要么在使用语料库读取器之前清理字符串，要么使用替换方法将“C#”替换为类似“CSharp”的内容，要么训练标记器那么，python中的基本字符串拆分如何？在plaintextcorpusreader的上下文中，举一个例子来说明您的意思如何？您在这里没有给出很多信息，因此很难准确地理

我有一本书，文字是从网上刮来的招聘广告。我想用NLTK去掉这些技能

但我在第一个障碍上失败了，因为读者将“C”这个词标记为“C”

我确实想过滤掉噪音，比如停止词和标点符号，所以这是个问题

我该如何解决这个问题？

答案是要么在使用语料库读取器之前清理字符串，要么使用替换方法将“C#”替换为类似“CSharp”的内容，要么训练标记器

那么，python中的基本字符串拆分如何？在plaintextcorpusreader的上下文中，举一个例子来说明您的意思如何？您在这里没有给出很多信息，因此很难准确地理解您想要什么。但是python中的任何字符串都可以调用.split（）函数，您也可以使用正则表达式来解决这个问题。如果您需要一个更具体的答案，那么一些示例代码将非常有用。这是一个副本，有，请阅读。您也可以在标记化后清理您的列表。实际上，如果没有看到太多的示例数据，很难说哪种方法最有效和/或最不耗时