Python 3.x Pyspark ML Word2vec模型上的save()正在创建空文件夹
我正在试图保存我在spark 2.0上的pyspark中构建的word2vec模型Python 3.x Pyspark ML Word2vec模型上的save()正在创建空文件夹,python-3.x,apache-spark,nlp,pyspark,word2vec,Python 3.x,Apache Spark,Nlp,Pyspark,Word2vec,我正在试图保存我在spark 2.0上的pyspark中构建的word2vec模型 word2vec_model.write().overwrite().save('filepath/word2vec') 这将成功完成并在文件夹word2vec下创建2个子文件夹(数据和元数据),但这2个子文件夹为空,但标题为_SUCCESS的空文件除外 随后,加载失败 w2vw = Word2Vec.load('filepath/word2vec') 异常情况除外:java.lang.Unsupported
word2vec_model.write().overwrite().save('filepath/word2vec')
这将成功完成并在文件夹word2vec下创建2个子文件夹(数据和元数据),但这2个子文件夹为空,但标题为_SUCCESS的空文件除外
随后,加载
失败
w2vw = Word2Vec.load('filepath/word2vec')
异常情况除外:java.lang.UnsupportedOperationException:空集合
word2vec模型本身运行良好,我通过一系列简单的变压器创建了它。我不确定出了什么问题。我的模型创建代码段:
tokenizer = Tokenizer(inputCol="input", outputCol="words")
remover = StopWordsRemover(inputCol="words", outputCol="filtered_1")
customRemover = CustomRemover(inputCol="filtered_1",outputCol="filtered")
word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
任何帮助都将不胜感激。正如我所想,我猜您保存的是word2vec模型,而不是word2vec,所以 对于word2vec型号,您必须按以下代码阅读:
from pyspark.ml.feature import Word2VecModel
w2vw_model = Word2VecModel.load('filepath/word2vec')
如果你只保存word2vec,我指的是这个对象:
word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
word2vec.write().overwrite().save('filepath_to_just_word2vec_not_its_model')
必须使用此代码块进行导入
w2vw = Word2Vec.load('filepath_to_just_word2vec_not_its_model')
正如我所想,我猜你保存了word2vec模型而不是word2vec,所以 对于word2vec型号,您必须按以下代码阅读:
from pyspark.ml.feature import Word2VecModel
w2vw_model = Word2VecModel.load('filepath/word2vec')
如果你只保存word2vec,我指的是这个对象:
word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
word2vec.write().overwrite().save('filepath_to_just_word2vec_not_its_model')
必须使用此代码块进行导入
w2vw = Word2Vec.load('filepath_to_just_word2vec_not_its_model')
我通过一点帮助解决了这个问题。不幸的是,这个问题没有突出导致问题的区域。它位于“文件路径”中。我写的是一个本地节点,而不是分布式文件系统,这导致了一个问题。不幸的是,这个问题没有突出导致问题的区域。它位于“文件路径”中。我在写本地节点而不是分布式文件系统,这导致了一个问题。