Python SKLEARN实例方法的多处理
我习惯于使用映射和星图池方法在任何类型的可移植对象上分配函数。以下是我通常如何从数据帧的原始内容列中提取词干词:Python SKLEARN实例方法的多处理,python,multithreading,scikit-learn,multiprocessing,Python,Multithreading,Scikit Learn,Multiprocessing,我习惯于使用映射和星图池方法在任何类型的可移植对象上分配函数。以下是我通常如何从数据帧的原始内容列中提取词干词: pool = mp.Pool(cpu_nb) totalvocab_stemmed = pool.map(tokenize_and_stem, site_df["raw_content"]) pool.close() 到目前为止还不错。但是有没有一种简单易行的方法来并行执行sklearn方法呢。下面是我想分发的一个示例 tfidf_vectorizer = TfidfVector
pool = mp.Pool(cpu_nb)
totalvocab_stemmed = pool.map(tokenize_and_stem, site_df["raw_content"])
pool.close()
到目前为止还不错。但是有没有一种简单易行的方法来并行执行sklearn方法呢。下面是我想分发的一个示例
tfidf_vectorizer = TfidfVectorizer(max_df=0.6, max_features=200000,
min_df=0.2, stop_words=stop_words,
use_idf=True, tokenizer=tokenize_and_stem, ngram_range=(1,3))
tfidf_matrix = tfidf_vectorizer.fit_transform(self.site_df["raw_content"])
tfidf_矩阵不是一个元素列表,因此,将site_df[“raw_content”]拆分为CPU中的内核,以执行GOF池,并在以后将所有内容重新堆叠在一起,这是不可取的。我看到了一些有趣的选择:
- IPython.parallel客户端
- 使用sklearn.externals.joblib的parallel_后端函数作为上下文