Python 3.x Pyspark ML Word2vec模型上的save（）正在创建空文件夹_Python 3.x_Apache Spark_Nlp_Pyspark_Word2vec

Python 3.x Pyspark ML Word2vec模型上的save（）正在创建空文件夹

python-3.x apache-spark nlp pyspark

Python 3.x Pyspark ML Word2vec模型上的save（）正在创建空文件夹,python-3.x,apache-spark,nlp,pyspark,word2vec,Python 3.x,Apache Spark,Nlp,Pyspark,Word2vec,我正在试图保存我在spark 2.0上的pyspark中构建的word2vec模型 word2vec_model.write().overwrite().save('filepath/word2vec') 这将成功完成并在文件夹word2vec下创建2个子文件夹（数据和元数据），但这2个子文件夹为空，但标题为_SUCCESS的空文件除外随后，加载失败 w2vw = Word2Vec.load('filepath/word2vec') 异常情况除外：java.lang.Unsupported

我正在试图保存我在spark 2.0上的pyspark中构建的word2vec模型

word2vec_model.write().overwrite().save('filepath/word2vec')

这将成功完成并在文件夹word2vec下创建2个子文件夹（数据和元数据），但这2个子文件夹为空，但标题为_SUCCESS的空文件除外

随后，

加载

失败

w2vw = Word2Vec.load('filepath/word2vec')

异常情况除外：

java.lang.UnsupportedOperationException:空集合

word2vec模型本身运行良好，我通过一系列简单的变压器创建了它。我不确定出了什么问题。我的模型创建代码段：

tokenizer = Tokenizer(inputCol="input", outputCol="words")
remover = StopWordsRemover(inputCol="words", outputCol="filtered_1")
customRemover = CustomRemover(inputCol="filtered_1",outputCol="filtered")
word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)

任何帮助都将不胜感激。

正如我所想，我猜您保存的是word2vec模型，而不是word2vec，所以对于word2vec型号，您必须按以下代码阅读：

from pyspark.ml.feature import Word2VecModel
w2vw_model = Word2VecModel.load('filepath/word2vec')

如果你只保存word2vec，我指的是这个对象：

word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
word2vec.write().overwrite().save('filepath_to_just_word2vec_not_its_model')

必须使用此代码块进行导入

w2vw = Word2Vec.load('filepath_to_just_word2vec_not_its_model')

正如我所想，我猜你保存了word2vec模型而不是word2vec，所以对于word2vec型号，您必须按以下代码阅读：

from pyspark.ml.feature import Word2VecModel
w2vw_model = Word2VecModel.load('filepath/word2vec')

如果你只保存word2vec，我指的是这个对象：

word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
word2vec.write().overwrite().save('filepath_to_just_word2vec_not_its_model')

必须使用此代码块进行导入

w2vw = Word2Vec.load('filepath_to_just_word2vec_not_its_model')

我通过一点帮助解决了这个问题。不幸的是，这个问题没有突出导致问题的区域。它位于“文件路径”中。我写的是一个本地节点，而不是分布式文件系统，这导致了一个问题。不幸的是，这个问题没有突出导致问题的区域。它位于“文件路径”中。我在写本地节点而不是分布式文件系统，这导致了一个问题。