Python 如何在NLTK中标记字符串句子?

Python 如何在NLTK中标记字符串句子?,python,nlp,tokenize,nltk,Python,Nlp,Tokenize,Nltk,我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样。然而,我刚刚学会了这样的方法 my_text = ['This', 'is', 'my', 'text'] 我想找到任何输入我的“文本”的方法: python或nltk的哪个方法允许我这样做。更重要的是,我如何消除标点符号?这实际上是在: 正如@PavelAnossov所回答的标准答案一样,使用nltk中的word\u tokenize函数: from nltk import word_tokenize

我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样。然而,我刚刚学会了这样的方法

my_text = ['This', 'is', 'my', 'text']
我想找到任何输入我的“文本”的方法:

python或nltk的哪个方法允许我这样做。更重要的是,我如何消除标点符号?

这实际上是在:


正如@PavelAnossov所回答的标准答案一样,使用nltk中的
word\u tokenize
函数:

from nltk import word_tokenize
sent = "This is my text, this is a nice way to input text."
word_tokenize(sent)

如果你的句子非常简单:

使用
字符串.标点符号集,删除标点符号,然后使用空格分隔符拆分:

import string
x = "This is my text, this is a nice way to input text."
y = "".join([i for i in x if not in string.punctuation]).split(" ")
print y

你能澄清一下,你所说的低估点字符号是什么意思吗?我想他是想把输入句子标记化是的,例如,如果我这样做了:sentente=“这是我的句子,句子是一个简短的表达”那么,“句子,“和“句子”将是两个不同的元素…@pavel的回答将解决诸如
没有
->
+
没有
单词标记化有什么问题?看到这么多人投了反对票,我想确保我没有错过什么。我没有投反对票,但我猜你的答案基本上是帕维尔答案的副本。也许对他的答案发表评论会更合适。问题是它没有分裂。如果你有“今天和/或明天是好日子”,那么默认情况下,它会将“和/或”作为一个标记。我们如何将“不”转换为“不”?@Omayr,我会使用正则表达式将“不”转换为“不”。我在下面附上了一些示例代码。{re.sub(“'t','ot','n't,don,don,don”)}boldI在Python2中使用了word_tokenize,但在Python3中,我希望有一个字节列表,而不是字符串。可能吗?
from nltk import word_tokenize
sent = "This is my text, this is a nice way to input text."
word_tokenize(sent)
import string
x = "This is my text, this is a nice way to input text."
y = "".join([i for i in x if not in string.punctuation]).split(" ")
print y