Python 将单词_标记化为句子

Python 将单词_标记化为句子,python,nltk,Python,Nltk,我是Python nltk的新手 目前,我有一个程序可以从一个句子中对单词进行标记。然后对单词_tokenize进行处理,将一些大写字母更正为一些名词。这个过程很好,现在我想再次将经过处理的单词_tokenize转换为一个句子。我可以很容易地通过一个循环来实现这一点,对于每个显示,我只需要添加空间。但在某些情况下,这对诸如“it's,I'm,don't等”之类的词不起作用,因为word_标记化会单独保存这些词。这样,我处理过的word_tokenize将转换为“it's,I'm,don't”等

我是Python nltk的新手

目前,我有一个程序可以从一个句子中对单词进行标记。然后对单词_tokenize进行处理,将一些大写字母更正为一些名词。这个过程很好,现在我想再次将经过处理的单词_tokenize转换为一个句子。我可以很容易地通过一个循环来实现这一点,对于每个显示,我只需要添加空间。但在某些情况下,这对诸如“it's,I'm,don't等”之类的词不起作用,因为word_标记化会单独保存这些词。这样,我处理过的word_tokenize将转换为“it's,I'm,don't”等


nltk是否有一个功能可以使单词完全标记成句子?

nltk有一个TreebankWordDetokenizer,它可以从标记列表中重建句子:

from nltk import word_tokenize
tokens = word_tokenize("I'm happy because it's a good book")
print(tokens)
#['I', "'m", 'happy', 'because', 'it', "'s", 'a', 'good', 'book']

from nltk.tokenize.treebank import TreebankWordDetokenizer
reconstructedSentence = TreebankWordDetokenizer().detokenize(tokens)
print(reconstructedSentence)
#I'm happy because it's a good book


nltk具有TreebankWordDetokenizer,它可以从标记列表中重建句子:

from nltk import word_tokenize
tokens = word_tokenize("I'm happy because it's a good book")
print(tokens)
#['I', "'m", 'happy', 'because', 'it', "'s", 'a', 'good', 'book']

from nltk.tokenize.treebank import TreebankWordDetokenizer
reconstructedSentence = TreebankWordDetokenizer().detokenize(tokens)
print(reconstructedSentence)
#I'm happy because it's a good book


from nltk.tokenize导入sent\u tokenize
sent\u tokenize将整个段落转换为句子。我要找的是将单词列表(在我的例子中是处理过的单词标记化)转换成一个句子。
从nltk.tokenize导入sent\u tokenize
sent\u tokenize将整个段落转换成句子。我要寻找的是将单词列表(在我的例子中是已处理单词的标记化)转换成一个句子。