Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 蜂巢进度条上的火花停留在10%_Hadoop_Apache Spark_Hive_Yarn_Cloudera Cdh - Fatal编程技术网

Hadoop 蜂巢进度条上的火花停留在10%

Hadoop 蜂巢进度条上的火花停留在10%,hadoop,apache-spark,hive,yarn,cloudera-cdh,Hadoop,Apache Spark,Hive,Yarn,Cloudera Cdh,最近,我们升级到Spark 1.6,并尝试使用SparkQL作为配置单元的默认查询引擎。Spark Gateway角色与HiveServer2在同一台机器上添加,并且启用了纱线上的Spark服务。但是,当我运行如下查询时: SET hive.execution.engine=spark; INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GRO

最近,我们升级到Spark 1.6,并尝试使用SparkQL作为配置单元的默认查询引擎。Spark Gateway角色与HiveServer2在同一台机器上添加,并且启用了纱线上的Spark服务。但是,当我运行如下查询时:

SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country; 
我们看到任务已被Yarn接受,资源已分配,状态显示它正在运行,但是,它显示了10%的持续进度,并且在色调或Yarn UI中都没有进一步的进展。 如果我们检查Spark UI作业是否完成,并且我在HDFS上实际看到一个输出: 有没有人遇到过类似的问题?如何调试这种行为有什么线索吗?
我使用Cloudera CDH 5.12

分享我过去的经验。请阅读此帖:


希望能有所帮助。

分享一下我过去的经验。请阅读此帖:


希望有帮助。

找到了答案。最近有一个解决方案。在错误和功能之间浮动:

启动配置单元会话并将查询提交给 Spark processing engine,Hive在服务器上维护一个或多个Spark执行器 在会话终止之前停止群集。系统的初始设置 火花处理引擎是时间密集型的。为了避免 必须为每个查询创建一个新的Spark处理引擎 提交后,Hive维护Spark应用程序主控程序(纱线Spark 驱动程序)和每个配置单元会话的一个或多个Spark执行器。这个 然而,取舍是Spark组件将消耗资源 在纱线上,即使它们可能处于空闲阶段,在查询之间,例如 很长一段时间


因此,要在没有补丁的情况下修复此问题,您应该终止配置单元会话,或者在查询完成后切换回MapReduce QL引擎。如果使用色调,则只有第二个选项

找到了答案。最近有一个解决方案。在错误和功能之间浮动:

启动配置单元会话并将查询提交给 Spark processing engine,Hive在服务器上维护一个或多个Spark执行器 在会话终止之前停止群集。系统的初始设置 火花处理引擎是时间密集型的。为了避免 必须为每个查询创建一个新的Spark处理引擎 提交后,Hive维护Spark应用程序主控程序(纱线Spark 驱动程序)和每个配置单元会话的一个或多个Spark执行器。这个 然而,取舍是Spark组件将消耗资源 在纱线上,即使它们可能处于空闲阶段,在查询之间,例如 很长一段时间


因此,要在没有补丁的情况下修复此问题,您应该终止配置单元会话,或者在查询完成后切换回MapReduce QL引擎。如果使用色调,则只有第二个选项

看来你的死刑已经结束了。与spark和hive的对话仍在进行中。火花纱线和其他类型数据的执行进度差别不大。这通常发生在使用spark shell时,进度始终为10%。如果配置单元每次会话都打开这样的连接,这可能就是问题所在。蒂亚戈巴迪姆:那么有没有办法结束这场比赛呢?有解决办法吗?看来你的执行已经结束了。与spark和hive的对话仍在进行中。火花纱线和其他类型数据的执行进度差别不大。这通常发生在使用spark shell时,进度始终为10%。如果配置单元每次会话都打开这样的连接,这可能就是问题所在。蒂亚戈巴迪姆:那么有没有办法结束这场比赛呢?有什么解决办法吗?谢谢你的链接!我明天会试试。谢谢你的链接!我明天会试试的。