python中的单词标记化_Python_Text_Nltk_Tokenize

python中的单词标记化

python text

python中的单词标记化,python,text,nltk,tokenize,Python,Text,Nltk,Tokenize,我不熟悉Python和文本分析，我想标记我的文本语料库： <s> c a b c b c </s> <s> a c b a </s> <s> c a c a c </s> I wanted to tokenize them into ['<s>','c','a','b','c','</s>'], but what i got is: ['<', 's', '>', 'c', 'a', '

我不熟悉Python和文本分析，我想标记我的文本语料库：

<s> c a b c b c </s>
<s> a c b a </s>
<s> c a c a c </s>

I wanted to tokenize them into ['<s>','c','a','b','c','</s>'], but what i got is:
['<', 's', '>', 'c', 'a', 'b', 'c', 'b', 'c', '<', '/s', '>']

这看起来像标记。您可以使用

beautifulsou

将其删除

import nltk

from bs4 import BeautifulSoup

corpus = """
<s> c a b c b c </s>
<s> a c b a </s>
<s> c a c a c </s>
"""

print(nltk.word_tokenize(BeautifulSoup(corpus, "html.parser").get_text()))

但是，如果要保留标记，只需执行以下操作：

with open("sample.txt") as f:
    corpus = f.read().split()

print(corpus)

sample.txt

包含您给出的语料库示例

输出：

['c', 'a', 'b', 'c', 'b', 'c', 'a', 'c', 'b', 'a', 'c', 'a', 'c', 'a', 'c']

['<s>', 'c', 'a', 'b', 'c', 'b', 'c', '</s>', '<s>', 'a', 'c', 'b', 'a', '</s>', '<s>', 'c', 'a', 'c', 'a', 'c', '</s>']

['''c'，'a'，'b'，'c'，'b'，'c'，'a'，'c'，'b'，'a'，'a'，'c'，'a'，'c'，'

您应该打开文件“rt”-对于您似乎想要的内容，只需

f.split（）

即可。

['<s>', 'c', 'a', 'b', 'c', 'b', 'c', '</s>', '<s>', 'a', 'c', 'b', 'a', '</s>', '<s>', 'c', 'a', 'c', 'a', 'c', '</s>']