Pyspark 读取HDFS中存储的模型（.pkl和.scl）文件_Pyspark_Hdfs_Pickle_Webhdfs

Pyspark 读取HDFS中存储的模型（.pkl和.scl）文件

pyspark

Pyspark 读取HDFS中存储的模型（.pkl和.scl）文件,pyspark,hdfs,pickle,webhdfs,Pyspark,Hdfs,Pickle,Webhdfs,我的问题类似于，但有区别我在HDFS中保存了两个模型model_1.scl和model_2.pkl pickle.load(open('model_1.scl', 'rb')) pickle.load(open('model_2.pkl', 'rb')) 对于文本文件，我可以简单地使用： sc.textFile('hdfs://abc_cluster/user/user_1/textfile.txt').collect() 但是非文本文件，比如我的模型文件，怎么样？它将使pickle.lo

我的问题类似于，但有区别

我在HDFS中保存了两个模型model_1.scl和model_2.pkl

pickle.load(open('model_1.scl', 'rb'))
pickle.load(open('model_2.pkl', 'rb'))

对于文本文件，我可以简单地使用：

sc.textFile('hdfs://abc_cluster/user/user_1/textfile.txt').collect()

但是非文本文件，比如我的模型文件，怎么样？它将使pickle.load（）的非文本文件失败

读取存储在HDFS上的模型文件的任何方法？

该模型文件是否包含二进制数据？使用

sc.binaryFiles

该模型文件是否包含二进制数据？使用

sc.binaryFiles