Python 使用我自己的标记语料库进行NLTK词性标记?

Python 使用我自己的标记语料库进行NLTK词性标记?,python,nlp,nltk,Python,Nlp,Nltk,我正在尝试使用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似,我有自己的.txt文件,其中包含单词及其相关词类。例如 Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN 我想做的是将语料库加载到NLTK中,并能够看到单词旁边的词性,类似于Brown语料库的做法。这就是我正在做的: from nltk.corpus.reader import TaggedCorpusReader corpus_root = '...

我正在尝试使用NLTK为Dothraki语言编写一个基本的POS标记器。与Brown语料库类似,我有自己的.txt文件,其中包含单词及其相关词类。例如

Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN

我想做的是将语料库加载到NLTK中,并能够看到单词旁边的词性,类似于Brown语料库的做法。这就是我正在做的:

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))
但我的结果是:

[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]
而不是

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

所以我现在觉得有点傻,但我通过简单地从TaggedCorpusReader参数中删除“*”就得到了我想要的。所以我现在得到的是:

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))