Pyspark 读取HDFS中存储的模型(.pkl和.scl)文件
我的问题类似于,但有区别 我在HDFS中保存了两个模型model_1.scl和model_2.pklPyspark 读取HDFS中存储的模型(.pkl和.scl)文件,pyspark,hdfs,pickle,webhdfs,Pyspark,Hdfs,Pickle,Webhdfs,我的问题类似于,但有区别 我在HDFS中保存了两个模型model_1.scl和model_2.pkl pickle.load(open('model_1.scl', 'rb')) pickle.load(open('model_2.pkl', 'rb')) 对于文本文件,我可以简单地使用: sc.textFile('hdfs://abc_cluster/user/user_1/textfile.txt').collect() 但是非文本文件,比如我的模型文件,怎么样?它将使pickle.lo
pickle.load(open('model_1.scl', 'rb'))
pickle.load(open('model_2.pkl', 'rb'))
对于文本文件,我可以简单地使用:
sc.textFile('hdfs://abc_cluster/user/user_1/textfile.txt').collect()
但是非文本文件,比如我的模型文件,怎么样?它将使pickle.load()的非文本文件失败
读取存储在HDFS上的模型文件的任何方法?该模型文件是否包含二进制数据?使用
sc.binaryFiles
该模型文件是否包含二进制数据?使用sc.binaryFiles