python中的单词标记化

python中的单词标记化,python,text,nltk,tokenize,Python,Text,Nltk,Tokenize,我不熟悉Python和文本分析,我想标记我的文本语料库: <s> c a b c b c </s> <s> a c b a </s> <s> c a c a c </s> I wanted to tokenize them into ['<s>','c','a','b','c','</s>'], but what i got is: ['<', 's', '>', 'c', 'a', '

我不熟悉Python和文本分析,我想标记我的文本语料库:

<s> c a b c b c </s>
<s> a c b a </s>
<s> c a c a c </s>

I wanted to tokenize them into ['<s>','c','a','b','c','</s>'], but what i got is:
['<', 's', '>', 'c', 'a', 'b', 'c', 'b', 'c', '<', '/s', '>']

这看起来像标记。您可以使用
beautifulsou
将其删除

import nltk

from bs4 import BeautifulSoup

corpus = """
<s> c a b c b c </s>
<s> a c b a </s>
<s> c a c a c </s>
"""

print(nltk.word_tokenize(BeautifulSoup(corpus, "html.parser").get_text()))
但是,如果要保留标记,只需执行以下操作:

with open("sample.txt") as f:
    corpus = f.read().split()

print(corpus)
sample.txt
包含您给出的语料库示例

输出:

['c', 'a', 'b', 'c', 'b', 'c', 'a', 'c', 'b', 'a', 'c', 'a', 'c', 'a', 'c']
['<s>', 'c', 'a', 'b', 'c', 'b', 'c', '</s>', '<s>', 'a', 'c', 'b', 'a', '</s>', '<s>', 'c', 'a', 'c', 'a', 'c', '</s>']
['''c','a','b','c','b','c','a','c','b','a','a','c','a','c','

您应该打开文件“rt”-对于您似乎想要的内容,只需
f.split()
即可。
['<s>', 'c', 'a', 'b', 'c', 'b', 'c', '</s>', '<s>', 'a', 'c', 'b', 'a', '</s>', '<s>', 'c', 'a', 'c', 'a', 'c', '</s>']