Apache spark 重新启动Kafka代理时Spark Streaming应用程序关闭
我有一个spark流媒体应用程序,它使用直接流媒体收听卡夫卡主题Apache spark 重新启动Kafka代理时Spark Streaming应用程序关闭,apache-spark,apache-kafka,yarn,spark-streaming,Apache Spark,Apache Kafka,Yarn,Spark Streaming,我有一个spark流媒体应用程序,它使用直接流媒体收听卡夫卡主题 HashMap<String, String> kafkaParams = new HashMap<String, String>(); kafkaParams.put("metadata.broker.list", "broker1,broker2,broker3"); kafkaParams.put("auto.offset.reset", "largest"); Ha
HashMap<String, String> kafkaParams = new HashMap<String, String>();
kafkaParams.put("metadata.broker.list", "broker1,broker2,broker3");
kafkaParams.put("auto.offset.reset", "largest");
HashSet<String> topicsSet = new HashSet<String>();
topicsSet.add("Topic1");
JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream(
jssc,
String.class,
String.class,
StringDecoder.class,
StringDecoder.class,
kafkaParams,
topicsSet
);
Spark作业已成功提交,我可以跟踪应用程序驱动程序和工作者/执行者节点
一切正常,但唯一关心的是,如果卡夫卡·博克斯离线或重新启动,我的应用程序是否应该关闭
编辑:我已经创建了Spark JIRA供社区响应。
我在spark中创建了此功能请求,但这似乎是预期的行为。我们可以在给定的spark Jira链接中进行讨论。
spark-submit \
--master yarn-cluster \
--files /home/siddiquf/spark/log4j-spark.xml
--conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=log4j-spark.xml" \
--conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=log4j-spark.xml" \
--class com.abc.etl.common.DataProcessor \
myapp.jar