Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/google-sheets/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x Pyspark ML Word2vec模型上的save()正在创建空文件夹_Python 3.x_Apache Spark_Nlp_Pyspark_Word2vec - Fatal编程技术网

Python 3.x Pyspark ML Word2vec模型上的save()正在创建空文件夹

Python 3.x Pyspark ML Word2vec模型上的save()正在创建空文件夹,python-3.x,apache-spark,nlp,pyspark,word2vec,Python 3.x,Apache Spark,Nlp,Pyspark,Word2vec,我正在试图保存我在spark 2.0上的pyspark中构建的word2vec模型 word2vec_model.write().overwrite().save('filepath/word2vec') 这将成功完成并在文件夹word2vec下创建2个子文件夹(数据和元数据),但这2个子文件夹为空,但标题为_SUCCESS的空文件除外 随后,加载失败 w2vw = Word2Vec.load('filepath/word2vec') 异常情况除外:java.lang.Unsupported

我正在试图保存我在spark 2.0上的pyspark中构建的word2vec模型

word2vec_model.write().overwrite().save('filepath/word2vec')
这将成功完成并在文件夹word2vec下创建2个子文件夹(数据和元数据),但这2个子文件夹为空,但标题为_SUCCESS的空文件除外

随后,
加载
失败

w2vw = Word2Vec.load('filepath/word2vec')
异常情况除外:
java.lang.UnsupportedOperationException:空集合

word2vec模型本身运行良好,我通过一系列简单的变压器创建了它。我不确定出了什么问题。我的模型创建代码段:

tokenizer = Tokenizer(inputCol="input", outputCol="words")
remover = StopWordsRemover(inputCol="words", outputCol="filtered_1")
customRemover = CustomRemover(inputCol="filtered_1",outputCol="filtered")
word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)

任何帮助都将不胜感激。

正如我所想,我猜您保存的是word2vec模型,而不是word2vec,所以 对于word2vec型号,您必须按以下代码阅读:

from pyspark.ml.feature import Word2VecModel
w2vw_model = Word2VecModel.load('filepath/word2vec')    
如果你只保存word2vec,我指的是这个对象:

word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
word2vec.write().overwrite().save('filepath_to_just_word2vec_not_its_model')
必须使用此代码块进行导入

w2vw = Word2Vec.load('filepath_to_just_word2vec_not_its_model')

正如我所想,我猜你保存了word2vec模型而不是word2vec,所以 对于word2vec型号,您必须按以下代码阅读:

from pyspark.ml.feature import Word2VecModel
w2vw_model = Word2VecModel.load('filepath/word2vec')    
如果你只保存word2vec,我指的是这个对象:

word2vec = Word2Vec(inputCol="filtered",vectorSize=100, minCount=10)
word2vec.write().overwrite().save('filepath_to_just_word2vec_not_its_model')
必须使用此代码块进行导入

w2vw = Word2Vec.load('filepath_to_just_word2vec_not_its_model')

我通过一点帮助解决了这个问题。不幸的是,这个问题没有突出导致问题的区域。它位于“文件路径”中。我写的是一个本地节点,而不是分布式文件系统,这导致了一个问题。不幸的是,这个问题没有突出导致问题的区域。它位于“文件路径”中。我在写本地节点而不是分布式文件系统,这导致了一个问题。