Machine learning 我怎样才能使spacy不产生-PRON引理呢?

Machine learning 我怎样才能使spacy不产生-PRON引理呢?,machine-learning,deep-learning,nlp,text-processing,spacy,Machine Learning,Deep Learning,Nlp,Text Processing,Spacy,我使用spacy是为了将大量tweet柠檬化。然而,当我把像“i”这样的词进行线性化时,就产生了标记PRON。如何避免这种情况?-PRON-是spaCy中代词的默认引理(请参阅): 关于spaCy的习惯代词引理 与动词和普通名词不同,人称代词没有明确的基本形式。“我”的引理应该是“我”,还是我们也应该规范化人,给予“它”-或者“他”?斯帕西的解决方案是引入一个新的符号-PRON-,它被用作所有人称代词的引理 如果您不想要它,您可以简单地用其他东西替换它,比如所讨论的令牌的单词形式(请参阅下面的代

我使用spacy是为了将大量tweet柠檬化。然而,当我把像“i”这样的词进行线性化时,就产生了标记PRON。如何避免这种情况?

-PRON-
是spaCy中代词的默认引理(请参阅):

关于spaCy的习惯代词引理

与动词和普通名词不同,人称代词没有明确的基本形式。“我”的引理应该是“我”,还是我们也应该规范化人,给予“它”-或者“他”?斯帕西的解决方案是引入一个新的符号-PRON-,它被用作所有人称代词的引理

如果您不想要它,您可以简单地用其他东西替换它,比如所讨论的令牌的单词形式(请参阅下面的代码片段)。请注意,这可能会对后续处理产生意外的后果。spaCy同时使用令牌属性的字符串和整数表示形式,因此您可能希望更改这两种表示形式(如果可能),或者保留原始整数值以便于跟踪

如果token.lemma=='-PRON-':
token.lemma u=token.orth 35;更改字符串表示形式
token.lemma=token.orth#更改整数表示(我没有测试这部分)