Hadoop 蜂巢进度条上的火花停留在10%
最近,我们升级到Spark 1.6,并尝试使用SparkQL作为配置单元的默认查询引擎。Spark Gateway角色与HiveServer2在同一台机器上添加,并且启用了纱线上的Spark服务。但是,当我运行如下查询时:Hadoop 蜂巢进度条上的火花停留在10%,hadoop,apache-spark,hive,yarn,cloudera-cdh,Hadoop,Apache Spark,Hive,Yarn,Cloudera Cdh,最近,我们升级到Spark 1.6,并尝试使用SparkQL作为配置单元的默认查询引擎。Spark Gateway角色与HiveServer2在同一台机器上添加,并且启用了纱线上的Spark服务。但是,当我运行如下查询时: SET hive.execution.engine=spark; INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GRO
SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country;
我们看到任务已被Yarn接受,资源已分配,状态显示它正在运行,但是,它显示了10%的持续进度,并且在色调或Yarn UI中都没有进一步的进展。
如果我们检查Spark UI作业是否完成,并且我在HDFS上实际看到一个输出:
有没有人遇到过类似的问题?如何调试这种行为有什么线索吗?
我使用Cloudera CDH 5.12分享我过去的经验。请阅读此帖:
希望能有所帮助。分享一下我过去的经验。请阅读此帖:
希望有帮助。找到了答案。最近有一个解决方案。在错误和功能之间浮动: 启动配置单元会话并将查询提交给 Spark processing engine,Hive在服务器上维护一个或多个Spark执行器 在会话终止之前停止群集。系统的初始设置 火花处理引擎是时间密集型的。为了避免 必须为每个查询创建一个新的Spark处理引擎 提交后,Hive维护Spark应用程序主控程序(纱线Spark 驱动程序)和每个配置单元会话的一个或多个Spark执行器。这个 然而,取舍是Spark组件将消耗资源 在纱线上,即使它们可能处于空闲阶段,在查询之间,例如 很长一段时间
因此,要在没有补丁的情况下修复此问题,您应该终止配置单元会话,或者在查询完成后切换回MapReduce QL引擎。如果使用色调,则只有第二个选项 找到了答案。最近有一个解决方案。在错误和功能之间浮动: 启动配置单元会话并将查询提交给 Spark processing engine,Hive在服务器上维护一个或多个Spark执行器 在会话终止之前停止群集。系统的初始设置 火花处理引擎是时间密集型的。为了避免 必须为每个查询创建一个新的Spark处理引擎 提交后,Hive维护Spark应用程序主控程序(纱线Spark 驱动程序)和每个配置单元会话的一个或多个Spark执行器。这个 然而,取舍是Spark组件将消耗资源 在纱线上,即使它们可能处于空闲阶段,在查询之间,例如 很长一段时间
因此,要在没有补丁的情况下修复此问题,您应该终止配置单元会话,或者在查询完成后切换回MapReduce QL引擎。如果使用色调,则只有第二个选项 看来你的死刑已经结束了。与spark和hive的对话仍在进行中。火花纱线和其他类型数据的执行进度差别不大。这通常发生在使用spark shell时,进度始终为10%。如果配置单元每次会话都打开这样的连接,这可能就是问题所在。蒂亚戈巴迪姆:那么有没有办法结束这场比赛呢?有解决办法吗?看来你的执行已经结束了。与spark和hive的对话仍在进行中。火花纱线和其他类型数据的执行进度差别不大。这通常发生在使用spark shell时,进度始终为10%。如果配置单元每次会话都打开这样的连接,这可能就是问题所在。蒂亚戈巴迪姆:那么有没有办法结束这场比赛呢?有什么解决办法吗?谢谢你的链接!我明天会试试。谢谢你的链接!我明天会试试的。