Java 如果某些Kafka节点的时间偏移未同步,则Spark streaming作业被卡住
我们有一个spark流媒体作业,它读取Gnip API并向卡夫卡集群发送推文 Kafka群集是使用Cloudera Manager安装的 有时,cloudera管理器会显示一些Kafka节点的不良运行状况消息。运行状况不良消息与NTP服务有关。某些节点突然无法与NTP服务器同步 一旦发生这种情况,Spark streaming作业就会卡住,许多作业会长时间排队而不进行处理Java 如果某些Kafka节点的时间偏移未同步,则Spark streaming作业被卡住,java,apache-spark,apache-kafka,spark-streaming,kafka-producer-api,Java,Apache Spark,Apache Kafka,Spark Streaming,Kafka Producer Api,我们有一个spark流媒体作业,它读取Gnip API并向卡夫卡集群发送推文 Kafka群集是使用Cloudera Manager安装的 有时,cloudera管理器会显示一些Kafka节点的不良运行状况消息。运行状况不良消息与NTP服务有关。某些节点突然无法与NTP服务器同步 一旦发生这种情况,Spark streaming作业就会卡住,许多作业会长时间排队而不进行处理 为什么Kafka节点与NTP服务器的同步会影响spark流媒体作业中的Kafka生产者 每个分区都有卡夫卡代理中的领导者和追
为什么Kafka节点与NTP服务器的同步会影响spark流媒体作业中的Kafka生产者 每个分区都有卡夫卡代理中的领导者和追随者,卡夫卡通过这些代理提供其容错性。该机制基于ZooKeeper,它使用NTP服务 如果您使用默认配置,领导者将接收您的数据,并尽力写入追随者。在将数据写入每个追随者之前,它不会响应成功消息。因此,您的Spark应用程序将被阻止 您还可以更改卡夫卡配置,使其在leader收到数据时立即响应,或在leader将数据写入磁盘时立即响应 您可以在中找到更多信息