Nlp NLTK his&;她的标签不同,

Nlp NLTK his&;她的标签不同,,nlp,nltk,pos-tagger,Nlp,Nltk,Pos Tagger,我刚开始尝试自然语言处理。我使用NLTK的前几行代码给出了令人困惑的结果 import nltk exampleArray = ['The book is hers', 'The book is his'] for item in exampleArray: tokenized = nltk.word_tokenize(item) tagged = nltk.pos_tag(tokenized) print(tagged) 输出: [('T

我刚开始尝试自然语言处理。我使用NLTK的前几行代码给出了令人困惑的结果

import nltk
exampleArray = ['The book is hers',
               'The book is his']
for item in exampleArray:
    tokenized = nltk.word_tokenize(item)
    tagged = nltk.pos_tag(tokenized)
    print(tagged)
输出:

[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('hers', 'NNS')]
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('his', 'PRP$')]

为什么“他的”和“她的”的标签如此不同?

我找不到任何关于该模型的文档,但该标签可能是根据《华尔街日报》的文本从宾夕法尼亚州树状银行(Penn Treebank)培训的,该银行不以性别平衡著称

注意,“他的”在这里也有错误的标签。两者都应该是PRP。《华尔街日报》的树状银行有一次his/PRP(相对于his/PRP$的2000,其中一些可能是错误)和一次她的/JJ(据我所知,是标记错误)。一个模型稍好一点(使用更好的训练数据)的标记者应该能够正确地标记“她的”,但“他的”仍然很棘手


此外,“她的”在布朗和总机亚集团中经常被标记为JJ,我不完全确定发生了什么,尽管我最好的猜测是它们是错误的。报告明确指出应该是PRP,快速搜索不会找到任何替代指南。

我从阅读中了解到,性别偏见是单词嵌入和其他深层NLP结构中的一个问题。不过,我没想到会这么快就遇到这个问题,也没想到会这么明目张胆地遇到。谢谢你提供了这个经过充分研究的答案和有用的链接。你知道有其他的标记者在代词上做得更好吗。具体来说,我需要一个标记器来区分句子中用作主语(he)的PRP和用作宾语(Hem)的PRP。嗯,我认为CLAWS7标记集包括这种区别,但CLAWS5和PTB标记集不区分主客观代词,我也不知道任何现成的CLAWS7标记器。一般来说,为了区分subj/obj/iobj,您需要使用解析器,而不仅仅是标记器。对于一个相当简单的起点,请看使用spacy的依赖项解析:(当我尝试使用spacy时,spacy在您的示例中将“his”错误地标记为PRP$,但正确地标记为“hers”)