Python 修正奇异引理的必要条件&x27;s

Python 修正奇异引理的必要条件&x27;s,python,nltk,text-analysis,lemmatization,Python,Nltk,Text Analysis,Lemmatization,(在jupyter notbook中执行)我正在对我标记的文档应用柠檬化,我忍不住注意到,“我们”一词每次都被柠檬化为“u”,这从清晰的角度看是没有意义的,可能会导致人们把它理解为其他东西。我是否遗漏了pos功能的条件?我如何解决这个问题 定义功能 from nltk import pos_tag def penn2wordNet(treebank_tags): wordNet_tag = {'NN':'n', 'JJ':'a', 'VB':'v',

在jupyter notbook中执行)我正在对我标记的文档应用柠檬化,我忍不住注意到,“我们”一词每次都被柠檬化为“u”,这从清晰的角度看是没有意义的,可能会导致人们把它理解为其他东西。我是否遗漏了pos功能的条件?我如何解决这个问题

定义功能

from nltk import pos_tag

def penn2wordNet(treebank_tags):
    wordNet_tag = {'NN':'n', 'JJ':'a',
                  'VB':'v', 'RB':'r'}
    try:
        return wordNet_tag[penntag[:2]]
    except:
        return 'n'
paired_tags = []
for doc in wordTokens:
    paired_tags.append(pos_tag(doc))
    print(paired_tags)

对代币进行柠檬化

    from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()

print(wordTokens[1])
lemmatized_wordTokens = []
for index in range(len(paired_tags)):
    lemmatized_wordTokens.append(([wnl.lemmatize(word, pos=penn2wordNet(tag)) for word, tag in paired_tags[index]]))
print(lemmatized_wordTokens[1])

您的
penn2wordNet
函数将名词POS标记分配给“us”,尽管
POS_标记(['us'])
返回
[('us','PRP')]
。这使得
WordNetLemmatizer
将“我们”视为一个名词。你必须添加一个附加条件来处理人称代词。

谢谢你,伙计!硬编码条件工作得很好!