Python 将单词_标记化为句子_Python_Nltk

Python 将单词_标记化为句子

python

Python 将单词_标记化为句子,python,nltk,Python,Nltk,我是Python nltk的新手目前，我有一个程序可以从一个句子中对单词进行标记。然后对单词_tokenize进行处理，将一些大写字母更正为一些名词。这个过程很好，现在我想再次将经过处理的单词_tokenize转换为一个句子。我可以很容易地通过一个循环来实现这一点，对于每个显示，我只需要添加空间。但在某些情况下，这对诸如“it's，I'm，don't等”之类的词不起作用，因为word_标记化会单独保存这些词。这样，我处理过的word_tokenize将转换为“it's，I'm，don't”等

我是Python nltk的新手

目前，我有一个程序可以从一个句子中对单词进行标记。然后对单词_tokenize进行处理，将一些大写字母更正为一些名词。这个过程很好，现在我想再次将经过处理的单词_tokenize转换为一个句子。我可以很容易地通过一个循环来实现这一点，对于每个显示，我只需要添加空间。但在某些情况下，这对诸如“it's，I'm，don't等”之类的词不起作用，因为word_标记化会单独保存这些词。这样，我处理过的word_tokenize将转换为“it's，I'm，don't”等

nltk是否有一个功能可以使单词完全标记成句子？

nltk有一个TreebankWordDetokenizer，它可以从标记列表中重建句子：

from nltk import word_tokenize
tokens = word_tokenize("I'm happy because it's a good book")
print(tokens)
#['I', "'m", 'happy', 'because', 'it', "'s", 'a', 'good', 'book']

from nltk.tokenize.treebank import TreebankWordDetokenizer
reconstructedSentence = TreebankWordDetokenizer().detokenize(tokens)
print(reconstructedSentence)
#I'm happy because it's a good book

nltk具有TreebankWordDetokenizer，它可以从标记列表中重建句子：

from nltk import word_tokenize
tokens = word_tokenize("I'm happy because it's a good book")
print(tokens)
#['I', "'m", 'happy', 'because', 'it', "'s", 'a', 'good', 'book']

from nltk.tokenize.treebank import TreebankWordDetokenizer
reconstructedSentence = TreebankWordDetokenizer().detokenize(tokens)
print(reconstructedSentence)
#I'm happy because it's a good book

from nltk.tokenize导入sent\u tokenize

sent\u tokenize将整个段落转换为句子。我要找的是将单词列表（在我的例子中是处理过的单词标记化）转换成一个句子。

从nltk.tokenize导入sent\u tokenize

sent\u tokenize将整个段落转换成句子。我要寻找的是将单词列表（在我的例子中是已处理单词的标记化）转换成一个句子。