Hadoop 蜂巢进度条上的火花停留在10%_Hadoop_Apache Spark_Hive_Yarn_Cloudera Cdh

Hadoop 蜂巢进度条上的火花停留在10%

hadoop apache-spark hive

Hadoop 蜂巢进度条上的火花停留在10%,hadoop,apache-spark,hive,yarn,cloudera-cdh,Hadoop,Apache Spark,Hive,Yarn,Cloudera Cdh,最近，我们升级到Spark 1.6，并尝试使用SparkQL作为配置单元的默认查询引擎。Spark Gateway角色与HiveServer2在同一台机器上添加，并且启用了纱线上的Spark服务。但是，当我运行如下查询时： SET hive.execution.engine=spark; INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GRO

最近，我们升级到Spark 1.6，并尝试使用SparkQL作为配置单元的默认查询引擎。Spark Gateway角色与HiveServer2在同一台机器上添加，并且启用了纱线上的Spark服务。但是，当我运行如下查询时：

SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country;

我们看到任务已被Yarn接受，资源已分配，状态显示它正在运行，但是，它显示了10%的持续进度，并且在色调或Yarn UI中都没有进一步的进展。如果我们检查Spark UI作业是否完成，并且我在HDFS上实际看到一个输出：有没有人遇到过类似的问题？如何调试这种行为有什么线索吗？

我使用Cloudera CDH 5.12

分享我过去的经验。请阅读此帖：

希望能有所帮助。

分享一下我过去的经验。请阅读此帖：

希望有帮助。

找到了答案。最近有一个解决方案。在错误和功能之间浮动：

启动配置单元会话并将查询提交给 Spark processing engine，Hive在服务器上维护一个或多个Spark执行器在会话终止之前停止群集。系统的初始设置火花处理引擎是时间密集型的。为了避免必须为每个查询创建一个新的Spark处理引擎提交后，Hive维护Spark应用程序主控程序（纱线Spark 驱动程序）和每个配置单元会话的一个或多个Spark执行器。这个然而，取舍是Spark组件将消耗资源在纱线上，即使它们可能处于空闲阶段，在查询之间，例如很长一段时间

因此，要在没有补丁的情况下修复此问题，您应该终止配置单元会话，或者在查询完成后切换回MapReduce QL引擎。如果使用色调，则只有第二个选项

找到了答案。最近有一个解决方案。在错误和功能之间浮动：

因此，要在没有补丁的情况下修复此问题，您应该终止配置单元会话，或者在查询完成后切换回MapReduce QL引擎。如果使用色调，则只有第二个选项

看来你的死刑已经结束了。与spark和hive的对话仍在进行中。火花纱线和其他类型数据的执行进度差别不大。这通常发生在使用spark shell时，进度始终为10%。如果配置单元每次会话都打开这样的连接，这可能就是问题所在。蒂亚戈巴迪姆：那么有没有办法结束这场比赛呢？有解决办法吗？看来你的执行已经结束了。与spark和hive的对话仍在进行中。火花纱线和其他类型数据的执行进度差别不大。这通常发生在使用spark shell时，进度始终为10%。如果配置单元每次会话都打开这样的连接，这可能就是问题所在。蒂亚戈巴迪姆：那么有没有办法结束这场比赛呢？有什么解决办法吗？谢谢你的链接！我明天会试试。谢谢你的链接！我明天会试试的。