Apache spark SparkContext已停止,但应用程序仍以群集模式运行
我已经编写了一个spark批处理作业,并在完成批处理的执行后立即在spark上下文上调用stop()方法。然后,我以集群模式在纱线(AWS)中执行该批处理。它运行正常,但应用程序不会自行结束。我必须明确地从Thread UI中删除它。我认为sparkContext.stop()已被调用,上下文已结束,但应用程序并未结束。这是我试图执行的代码-Apache spark SparkContext已停止,但应用程序仍以群集模式运行,apache-spark,yarn,Apache Spark,Yarn,我已经编写了一个spark批处理作业,并在完成批处理的执行后立即在spark上下文上调用stop()方法。然后,我以集群模式在纱线(AWS)中执行该批处理。它运行正常,但应用程序不会自行结束。我必须明确地从Thread UI中删除它。我认为sparkContext.stop()已被调用,上下文已结束,但应用程序并未结束。这是我试图执行的代码- JavaSparkContext sc = new JavaSparkContext(sparkConf); sc.newAPIHadoopRDD(inp
JavaSparkContext sc = new JavaSparkContext(sparkConf);
sc.newAPIHadoopRDD(inputConfiguration, TableInputFormat.class, ImmutableBytesWritable.class, Result.class)
.mapToPair(t -> {
HbaseEntity entity = new HbaseEntity(t._2(), toTableName, columnFamily);
return new Tuple2<>(entity.getKey(), entity);
})
.reduceByKey(hbaseEntityReducer)
.mapToPair(t -> t._2().createPutTuple())
.saveAsHadoopDataset(outJobConf);
sc.stop();
我无法理解为什么纱线应用程序没有结束或结束。有人能帮我吗?另外,请告诉我如何执行此操作,以便应用程序在执行stop()方法时立即结束
spark-submit --master yarn-cluster --class com.self.spark.SparkBatch spark-batch.jar