Python SKLEARN实例方法的多处理

Python SKLEARN实例方法的多处理,python,multithreading,scikit-learn,multiprocessing,Python,Multithreading,Scikit Learn,Multiprocessing,我习惯于使用映射和星图池方法在任何类型的可移植对象上分配函数。以下是我通常如何从数据帧的原始内容列中提取词干词: pool = mp.Pool(cpu_nb) totalvocab_stemmed = pool.map(tokenize_and_stem, site_df["raw_content"]) pool.close() 到目前为止还不错。但是有没有一种简单易行的方法来并行执行sklearn方法呢。下面是我想分发的一个示例 tfidf_vectorizer = TfidfVector

我习惯于使用映射星图池方法在任何类型的可移植对象上分配函数。以下是我通常如何从数据帧的原始内容列中提取词干词:

pool = mp.Pool(cpu_nb)
totalvocab_stemmed = pool.map(tokenize_and_stem, site_df["raw_content"])
pool.close()

到目前为止还不错。但是有没有一种简单易行的方法来并行执行sklearn方法呢。下面是我想分发的一个示例

tfidf_vectorizer = TfidfVectorizer(max_df=0.6, max_features=200000,
                             min_df=0.2, stop_words=stop_words,
                             use_idf=True, tokenizer=tokenize_and_stem, ngram_range=(1,3))

tfidf_matrix = tfidf_vectorizer.fit_transform(self.site_df["raw_content"])
tfidf_矩阵不是一个元素列表,因此,将site_df[“raw_content”]拆分为CPU中的内核,以执行GOF池,并在以后将所有内容重新堆叠在一起,这是不可取的。我看到了一些有趣的选择:

  • IPython.parallel客户端
  • 使用sklearn.externals.joblib的parallel_后端函数作为上下文
我可能很笨,但两次尝试都不是很成功。你会怎么做

看,你可以在事后并行化转换过程,但我认为拟合过程必须是一个过程。看,你可以在事后并行化转换过程,但我认为拟合过程必须是一个过程。