Machine learning 代词的Spacy-lemmatization给出了一些错误的输出

Machine learning 代词的Spacy-lemmatization给出了一些错误的输出,machine-learning,nlp,spacy,Machine Learning,Nlp,Spacy,通过[token.lemma uuu for token in doc]对代词进行系词化,将代词的系词化为-PRON-,这是一个错误吗?不,这实际上是有意的行为。请参阅文档: 与动词和普通名词不同,人称代词没有明确的基本形式。“我”的引理应该是“我”,还是我们也应该规范化人,给予“它”-或者“他”?斯帕西的解决方案是引入一个新的符号,-PRON-,它被用作所有人称代词的引理 值得注意的是,随着spaCy与格式的兼容性不断提高,这种约定在将来可能会发生变化。下面的代码可能会帮助您从简化的文本中删除

通过
[token.lemma uuu for token in doc]
对代词进行系词化,将代词的系词化为
-PRON-
,这是一个错误吗?

不,这实际上是有意的行为。请参阅文档:

与动词和普通名词不同,人称代词没有明确的基本形式。“我”的引理应该是“我”,还是我们也应该规范化人,给予“它”-或者“他”?斯帕西的解决方案是引入一个新的符号,
-PRON-
,它被用作所有人称代词的引理


值得注意的是,随着spaCy与格式的兼容性不断提高,这种约定在将来可能会发生变化。

下面的代码可能会帮助您从简化的文本中删除小写形式的
-PRON-

[token.lemma_.lower() if token.lemma_ != '-PRON-' else token.lower_ for token in doc]
我很好奇你所说的“没有明确的人称代词基本形式”是什么意思。对我来说,把“我”改为“我”,就像把“谁”改为“谁”,或者在德语中把“迪奇”改为“杜”,在西班牙语中把“ti”改为“tú”,等等。也就是说,在语法上,这些形式是从任何印欧语言中过去的主格形式派生出来的。说“我”是“我们”的引理似乎。。。非常非常奇怪。“我们是否也应该规范化人称”:如果我们不对名词和形容词进行规范化(因为它们没有),为什么还要对代词进行规范化?