Hadoop 纱线上的火花和存档选项
我试图利用spark on Thread中提供的--archives选项来上传归档文件。根据文档&如本文所述,Thread不仅将上载zip文件,而且还将在工作节点上自动取消归档zip文件 从日志中,我可以看到纱线正在spark的暂存目录中上传jarHadoop 纱线上的火花和存档选项,hadoop,apache-spark,yarn,Hadoop,Apache Spark,Yarn,我试图利用spark on Thread中提供的--archives选项来上传归档文件。根据文档&如本文所述,Thread不仅将上载zip文件,而且还将在工作节点上自动取消归档zip文件 从日志中,我可以看到纱线正在spark的暂存目录中上传jar 17/09/19 01:28:57 INFO Client: Uploading resource file:/home/foo/bar/zoo.zip -> hdfs://abc.foo.bar:8020/user/xyz/.sparkSta
17/09/19 01:28:57 INFO Client: Uploading resource file:/home/foo/bar/zoo.zip -> hdfs://abc.foo.bar:8020/user/xyz/.sparkStaging/application_1503584958553_4501/zoo.zip
我面临的问题是,尽管zip文件被复制到spark staging目录中,但它并没有自动取消归档&我猜它也没有被复制到worker节点中
假设Thread不归档zip文件,是否有方法以编程方式访问工作节点的位置
我正在运行spark 2.2与emr 5.8的对比,emr 5.8拥有Thread 2.7。要将zip文件解压缩到所需目录中,您需要给出以下值
--存档src.zip#src
这意味着src.zip将上载到所有执行者,并未归档到“src”目录中。另一个更清楚的例子-
--存档src.zip#abc
如果您像上面那样更改目录名(在#之后的字符串),现在src.zip将不归档到“abc”目录。Hi@Pawan-您找到了解决方案吗。我也面临同样的问题。如果你有什么解决办法,请告诉我。谢谢我的问题。