Python 如何在NLTK中标记字符串句子？_Python_Nlp_Tokenize_Nltk

Python 如何在NLTK中标记字符串句子？

python nlp

Python 如何在NLTK中标记字符串句子？,python,nlp,tokenize,nltk,Python,Nlp,Tokenize,Nltk,我正在使用nltk，所以我想创建自己的自定义文本，就像nltk.books上的默认文本一样。然而，我刚刚学会了这样的方法 my_text = ['This', 'is', 'my', 'text'] 我想找到任何输入我的“文本”的方法： python或nltk的哪个方法允许我这样做。更重要的是，我如何消除标点符号？这实际上是在：正如@PavelAnossov所回答的标准答案一样，使用nltk中的word\u tokenize函数： from nltk import word_tokenize

我正在使用nltk，所以我想创建自己的自定义文本，就像nltk.books上的默认文本一样。然而，我刚刚学会了这样的方法

my_text = ['This', 'is', 'my', 'text']

我想找到任何输入我的“文本”的方法：

python或nltk的哪个方法允许我这样做。更重要的是，我如何消除标点符号？

这实际上是在：

正如@PavelAnossov所回答的标准答案一样，使用nltk中的

word\u tokenize

函数：

from nltk import word_tokenize
sent = "This is my text, this is a nice way to input text."
word_tokenize(sent)

如果你的句子非常简单：

使用

字符串.标点符号集，删除标点符号，然后使用空格分隔符拆分：
import string
x = "This is my text, this is a nice way to input text."
y = "".join([i for i in x if not in string.punctuation]).split(" ")
print y

你能澄清一下，你所说的低估点字符号是什么意思吗？我想他是想把输入句子标记化是的，例如，如果我这样做了：sentente=“这是我的句子，句子是一个简短的表达”那么，“句子，“和“句子”将是两个不同的元素…@pavel的回答将解决诸如没有
->有
+没有单词标记化有什么问题？看到这么多人投了反对票，我想确保我没有错过什么。我没有投反对票，但我猜你的答案基本上是帕维尔答案的副本。也许对他的答案发表评论会更合适。问题是它没有分裂。如果你有“今天和/或明天是好日子”，那么默认情况下，它会将“和/或”作为一个标记。我们如何将“不”转换为“不”？@Omayr，我会使用正则表达式将“不”转换为“不”。我在下面附上了一些示例代码。{re.sub（“'t'，'ot'，'n't，don，don，don”）}boldI在Python2中使用了word_tokenize，但在Python3中，我希望有一个字节列表，而不是字符串。可能吗？
from nltk import word_tokenize
sent = "This is my text, this is a nice way to input text."
word_tokenize(sent)

import string
x = "This is my text, this is a nice way to input text."
y = "".join([i for i in x if not in string.punctuation]).split(" ")
print y