Amazon web services DSE Spark单机集群启动应用程序';远程Akka客户端已解除关联';错误

Amazon web services DSE Spark单机集群启动应用程序';远程Akka客户端已解除关联';错误,amazon-web-services,cassandra,apache-spark,datastax-enterprise,Amazon Web Services,Cassandra,Apache Spark,Datastax Enterprise,我在DataStax Enterprise 4.7(DSE)上使用Spark 1.2.1作为由3个节点组成的独立群集(AWS vpc服务器)。 当从主节点向其启动应用程序时,它通过了第一阶段,但在第二阶段出现了“远程Akka客户端解除关联”错误。 我还收到了“要求删除不存在的执行器0”错误 没有纱线 尝试将AKKA超时设置为6000,但未更改 所有端口都已设置,Spark web UI显示集群正常 这可能是超时问题吗 错误2015-07-09 12:59:24 org.apache.spar

我在DataStax Enterprise 4.7(DSE)上使用Spark 1.2.1作为由3个节点组成的独立群集(AWS vpc服务器)。 当从主节点向其启动应用程序时,它通过了第一阶段,但在第二阶段出现了“远程Akka客户端解除关联”错误。 我还收到了“要求删除不存在的执行器0”错误

  • 没有纱线

  • 尝试将AKKA超时设置为6000,但未更改

  • 所有端口都已设置,Spark web UI显示集群正常

这可能是超时问题吗

错误2015-07-09 12:59:24 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x1上的执行器1丢失:远程Akka客户端已解除关联 警告2015-07-09 12:59:24 org.apache.spark.scheduler.TaskSetManager:在第1.0阶段(TID 19,1xx.xx.x.x1)丢失任务6.0:执行器丢失失败(执行器1丢失) 警告2015-07-09 12:59:24 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka。tcp://sparkExecutor@1xx.xx.x.x1:38145]失败,地址现在为[5000]毫秒选通。原因是:[解除关联]。 错误2015-07-09 12:59:24 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:请求删除不存在的执行器1 错误2015-07-09 12:59:24 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:请求删除不存在的执行器1 [第1阶段:===========================================>(5+0)/12]错误2015-07-09 12:59:32 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.x2上丢失的执行器2:远程Akka客户端解除关联 警告2015-07-09 12:59:32 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka。tcp://sparkExecutor@1xx.xx.xx.x2:33914]失败,地址现在为[5000]毫秒选通。原因是:[解除关联]。 警告2015-07-09 12:59:32 org.apache.spark.scheduler.TaskSetManager:在第1.0阶段(TID 20,1xx.xx.xx.x2)中丢失任务0.1:执行器丢失失败(执行器2丢失) 错误2015-07-09 12:59:32 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:请求删除不存在的执行器2 错误2015-07-09 12:59:32 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:请求删除不存在的执行器2 [第1阶段:===================================================================================================================>(8+-2)/12]错误2015-07-09 13:01:03 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x3上丢失的执行器3:远程Akka客户端解除关联 警告2015-07-09 13:01:03 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka。tcp://sparkExecutor@1xx.xx.xx.x3:58630]失败,地址现在为[5000]毫秒选通。原因是:[解除关联]。 警告2015-07-09 13:01:03 org.apache.spark.scheduler.TaskSetManager:在第1.0阶段(TID 23,1xx.xx.xx.x3)中丢失任务1.1:执行器丢失失败(执行器3丢失) 错误2015-07-09 13:01:03 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:请求删除不存在的执行器3 错误2015-07-09 13:01:03 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:请求删除不存在的执行器3 [第一阶段:=====================================================================================>(8+-3)/12


我试图更改AKKA设置、端口等,但最终的解决方案是在全新清洁的AWS环境中重新开始—3台新服务器,重新安装DSE系统


:/

工作日志中有什么?@dpeacock-你可以在我的主要问题中看到它…它是一个独立的集群,所以日志会显示在控制台中。工作日志中没有错误日志。这在spark shell中工作吗?
dse spark
@phact-我通过/usr/bin/dse spark submit运行它。我不能真正使用这个解决方案,因为我们的C*clust目前,er更像是宠物而不是母牛。我很好奇是否还有人知道这一点?嗯,问题出在1.2.1版本中…我想升级是个好主意。它不会再发生了…你使用了相同数量的节点吗?我一直看到迹象表明这可能与内存不足有关…还有,是不是Spark的rsion,还是DSE的版本?是的,还有三个。也许你可以把你的问题贴在集群的具体规格上。。。