Python 使用我自己的标记语料库进行NLTK词性标记？_Python_Nlp_Nltk

Python 使用我自己的标记语料库进行NLTK词性标记？

python nlp

Python 使用我自己的标记语料库进行NLTK词性标记？,python,nlp,nltk,Python,Nlp,Nltk,我正在尝试使用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似，我有自己的.txt文件，其中包含单词及其相关词类。例如 Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN 我想做的是将语料库加载到NLTK中，并能够看到单词旁边的词性，类似于Brown语料库的做法。这就是我正在做的： from nltk.corpus.reader import TaggedCorpusReader corpus_root = '...

我正在尝试使用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似，我有自己的.txt文件，其中包含单词及其相关词类。例如

Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN

我想做的是将语料库加载到NLTK中，并能够看到单词旁边的词性，类似于Brown语料库的做法。这就是我正在做的：

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

但我的结果是：

[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]

而不是

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

所以我现在觉得有点傻，但我通过简单地从TaggedCorpusReader参数中删除“*”就得到了我想要的。所以我现在得到的是：

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))