Python pyspark MLUtils saveaslibsvm仅在_temporary下保存,不在master上保存
我用Pypark 并使用MLUtils在标记点上保存RDD 它可以工作,但会将所有工作节点中的文件保留在/\u temporary/下 没有抛出错误,我希望将文件保存在适当的文件夹中,最好将所有输出保存到一个libsvm文件中,该文件将位于节点或主机上 可能吗 编辑 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++Python pyspark MLUtils saveaslibsvm仅在_temporary下保存,不在master上保存,python,apache-spark,pyspark,libsvm,svmlight,Python,Apache Spark,Pyspark,Libsvm,Svmlight,我用Pypark 并使用MLUtils在标记点上保存RDD 它可以工作,但会将所有工作节点中的文件保留在/\u temporary/下 没有抛出错误,我希望将文件保存在适当的文件夹中,最好将所有输出保存到一个libsvm文件中,该文件将位于节点或主机上 可能吗 编辑 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 无论我做什么,我都不能使用MLUtils.loadaslibsvm()从我保存libsvm的
无论我做什么,我都不能使用MLUtils.loadaslibsvm()从我保存libsvm的相同路径加载libsvm数据。也许写文件有问题 这是Spark的正常行为。所有写入和读取活动都直接从工作节点并行执行,数据不会传递到或从驱动节点传递 这就是为什么读写应该使用可以从每台机器上访问的存储来执行,比如分布式文件系统、对象存储或数据库。将Spark与本地文件系统结合使用的应用程序非常有限 为了进行测试,您可以使用网络文件系统(它很容易部署),但在生产环境中无法正常工作