Python 使用spaCy纠正多线程柠檬化_Python_Nlp_Spacy_Lemmatization

Python 使用spaCy纠正多线程柠檬化

python nlp

Python 使用spaCy纠正多线程柠檬化,python,nlp,spacy,lemmatization,Python,Nlp,Spacy,Lemmatization,我正在尝试使用spaCy对我的语料库进行多线程的柠檬化。以下是我目前的做法： import spacy nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner', 'tagger']) def lemmatize(): for doc in nlp.pipe(corpus, batch_size=2, n_threads=10): yield ' '.join([token.lemma_ for token

我正在尝试使用spaCy对我的语料库进行多线程的柠檬化。以下是我目前的做法：

import spacy
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner', 'tagger'])

def lemmatize():
    for doc in nlp.pipe(corpus, batch_size=2, n_threads=10):
        yield ' '.join([token.lemma_ for token in doc])

new_corpus = list(lemmatize())

但是，无论使用10个线程还是1个线程（我在100.000个文档上使用它），这都需要相同的时间，这表明它不是多线程的

我的实现错了吗？

新版本的spacy中已弃用了

n\u threads

参数，该参数不起任何作用。请参见此处的注释：

下面是他们的示例代码，用于使用多处理来执行此操作：

您能为SpaCy lemmatizer实现多线程吗？您对上述代码做了哪些更改？谢谢