Apache spark Spark中gensim键矢量模型的并行化

Apache spark Spark中gensim键矢量模型的并行化,apache-spark,pyspark,rdd,gensim,word2vec,Apache Spark,Pyspark,Rdd,Gensim,Word2vec,我有一个gensim Word2Vec KeyedVectors模型。为了提高速度,我想并行化我的程序,以便它可以在Spark环境中运行。然而,据我所知,Spark的RDD只适用于集合和iterables。我不认为仅仅把KeyedVectors模型放到RDD中就能看到性能提升 我已经探索过将模型存储为广播变量,但它太大了。分区(使用RDD)看起来是最好的选择 如果我想通过将模型转换为Spark中的并行集合来提高程序的性能,我该怎么做?与此相同

我有一个gensim Word2Vec KeyedVectors模型。为了提高速度,我想并行化我的程序,以便它可以在Spark环境中运行。然而,据我所知,Spark的RDD只适用于集合和iterables。我不认为仅仅把KeyedVectors模型放到RDD中就能看到性能提升

我已经探索过将模型存储为广播变量,但它太大了。分区(使用RDD)看起来是最好的选择

如果我想通过将模型转换为Spark中的并行集合来提高程序的性能,我该怎么做?

与此相同