Nlp NLTK his&；她的标签不同，_Nlp_Nltk_Pos Tagger

Nlp NLTK his&；她的标签不同，

nlp

Nlp NLTK his&；她的标签不同，,nlp,nltk,pos-tagger,Nlp,Nltk,Pos Tagger,我刚开始尝试自然语言处理。我使用NLTK的前几行代码给出了令人困惑的结果 import nltk exampleArray = ['The book is hers', 'The book is his'] for item in exampleArray: tokenized = nltk.word_tokenize(item) tagged = nltk.pos_tag(tokenized) print(tagged) 输出： [('T

我刚开始尝试自然语言处理。我使用NLTK的前几行代码给出了令人困惑的结果

import nltk
exampleArray = ['The book is hers',
               'The book is his']
for item in exampleArray:
    tokenized = nltk.word_tokenize(item)
    tagged = nltk.pos_tag(tokenized)
    print(tagged)

输出：

[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('hers', 'NNS')]
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('his', 'PRP$')]

为什么“他的”和“她的”的标签如此不同？

我找不到任何关于该模型的文档，但该标签可能是根据《华尔街日报》的文本从宾夕法尼亚州树状银行（Penn Treebank）培训的，该银行不以性别平衡著称

注意，“他的”在这里也有错误的标签。两者都应该是PRP。《华尔街日报》的树状银行有一次his/PRP（相对于his/PRP$的2000，其中一些可能是错误）和一次她的/JJ（据我所知，是标记错误）。一个模型稍好一点（使用更好的训练数据）的标记者应该能够正确地标记“她的”，但“他的”仍然很棘手

此外，“她的”在布朗和总机亚集团中经常被标记为JJ，我不完全确定发生了什么，尽管我最好的猜测是它们是错误的。报告明确指出应该是PRP，快速搜索不会找到任何替代指南。

我从阅读中了解到，性别偏见是单词嵌入和其他深层NLP结构中的一个问题。不过，我没想到会这么快就遇到这个问题，也没想到会这么明目张胆地遇到。谢谢你提供了这个经过充分研究的答案和有用的链接。你知道有其他的标记者在代词上做得更好吗。具体来说，我需要一个标记器来区分句子中用作主语（he）的PRP和用作宾语（Hem）的PRP。嗯，我认为CLAWS7标记集包括这种区别，但CLAWS5和PTB标记集不区分主客观代词，我也不知道任何现成的CLAWS7标记器。一般来说，为了区分subj/obj/iobj，您需要使用解析器，而不仅仅是标记器。对于一个相当简单的起点，请看使用spacy的依赖项解析：（当我尝试使用spacy时，spacy在您的示例中将“his”错误地标记为PRP$，但正确地标记为“hers”）