Apache spark spark上的配置单元,spark master web UI作业应用程序中的执行器内核始终错误
我正在尝试将mapreduce上的Apache spark spark上的配置单元,spark master web UI作业应用程序中的执行器内核始终错误,apache-spark,docker,hive,Apache Spark,Docker,Hive,我正在尝试将mapreduce上的hive 2.1.1切换到spark上的hive。正如spark官方网站上的hive中所述,我构建了一个没有hive的spark 1.6.0(关于hive 2.1.1源代码POM中的spark rev)。火花在火花-submit/Spark shell测试中工作正常。我设定了 spark.executor.cores/spark.executor.memory 在hive site.xml中,也通过 SPARK_WORKER_内核/SPARK_WORKER_内存
hive 2.1.1
切换到spark上的hive。正如spark官方网站上的hive中所述,我构建了一个没有hive的spark 1.6.0
(关于hive 2.1.1源代码POM中的spark rev)。火花在火花-submit/Spark shell
测试中工作正常。我设定了
spark.executor.cores/spark.executor.memory
在hive site.xml
中,也通过
SPARK_WORKER_内核/SPARK_WORKER_内存
在spark env.sh
中。但是,在我从配置单元cli启动配置单元查询(如select count(*)
)之后,spark master web UI中的作业始终应用了0个CPU内核,因此不会执行作业,并且配置单元查询会像cli中一样永远等待。spark cluster是在docker环境中建立的,每个服务器都是一个docker容器,运行在一个服务器上,添加了多达160个内核/160g内存。在设置SPARK_WORKER_CORES/SPARK_WORKER_内存之前,始终应用156个内核,这也会导致资源不足时出现故障。将SPARK_WORKER_CORES/SPARK_WORKER_内存限制为分配给docker容器的资源后,应用0
我在这个问题上被困了两天,没有任何进展。希望能从熟悉hive on docker或在docker env上运行hive/spark的人那里得到一些提示。我认为spark执行引擎根本无法与hive配合使用。您正在尝试与spark集成的hive版本,以前对此有很多讨论。
您最好使用Tez,因为许多用户都在该线程上报告 很遗憾知道,真的很感谢你的信息,我会尝试Tez而不是与spark抗争。现在我使用的是hive 2.1.1,你的经验应该使用哪个Tez rev?或者根据您的经验,hive rev与Tex rev配合得很好?顺便说一句,我不使用HDP,直接使用GNU hadoop 2.6。它是用tez版本0.8.4构建的[查看pom文件中的hive]()