Apache spark “火花看起来”;“僵尸”;关于EMR集群

Apache spark “火花看起来”;“僵尸”;关于EMR集群,apache-spark,pyspark,amazon-emr,Apache Spark,Pyspark,Amazon Emr,我们正在运行一个简单的spark应用程序,该应用程序对给定数据帧的每列执行多个count()函数。 在几个作业之后,应用程序似乎“卡住了”,看起来它仍然在运行(执行器上有活动的任务),但实际上什么都没有发生(在我杀死它之前的3个小时内)。 在Ganglia中,我们看到所有节点都在上,您的集群中有SPOT实例吗?如果是,现货与按需实例的比例是多少?您是否在Spark日志/UI中看到执行器的任何故障?是的,我们有19个节点是SPOT和1个按需节点。我们没有在执行器上看到错误。请尝试在仅包含按需实例的

我们正在运行一个简单的spark应用程序,该应用程序对给定数据帧的每列执行多个count()函数。 在几个作业之后,应用程序似乎“卡住了”,看起来它仍然在运行(执行器上有活动的任务),但实际上什么都没有发生(在我杀死它之前的3个小时内)。
在Ganglia中,我们看到所有节点都在上,您的集群中有SPOT实例吗?如果是,现货与按需实例的比例是多少?您是否在Spark日志/UI中看到执行器的任何故障?是的,我们有19个节点是SPOT和1个按需节点。我们没有在执行器上看到错误。请尝试在仅包含按需实例的群集上运行作业。我经常看到Spark群集由于SPOT实例问题而被卡住。您的群集中有SPOT实例吗?如果是,现货与按需实例的比例是多少?您是否在Spark日志/UI中看到执行器的任何故障?是的,我们有19个节点是SPOT和1个按需节点。我们没有在执行器上看到错误。请尝试在仅包含按需实例的群集上运行作业。我经常看到Spark群集由于SPOT实例问题而被卡住