Apache spark 为什么某些批次不接收卡夫卡数据?

Apache spark 为什么某些批次不接收卡夫卡数据?,apache-spark,apache-kafka,spark-streaming,Apache Spark,Apache Kafka,Spark Streaming,我正在使用卡夫卡的Spark Streaming,批处理间隔为10秒。我确信卡夫卡队列总是能够及时为Spark提供数据。但有时Spark可能会堆积在那里几分钟,并不断输出以下日志: INFO scheduler.JobScheduler: Added jobs for time 1453521260000 ms INFO scheduler.JobScheduler: Added jobs for time 1453521280000 ms INFO scheduler.JobScheduler

我正在使用卡夫卡的Spark Streaming,批处理间隔为10秒。我确信卡夫卡队列总是能够及时为Spark提供数据。但有时Spark可能会堆积在那里几分钟,并不断输出以下日志:

INFO scheduler.JobScheduler: Added jobs for time 1453521260000 ms
INFO scheduler.JobScheduler: Added jobs for time 1453521280000 ms
INFO scheduler.JobScheduler: Added jobs for time 1453521300000 ms
INFO scheduler.JobScheduler: Added jobs for time 1453521320000 ms

有什么想法吗?为什么Spark会堆积在那里并不断增加工作,但没有任何进展?

你如何观察进展?你有记录显示卡夫卡的消息何时被使用吗?我使用的是Spark主日志和从日志。是的,我可以看到Spark非常缓慢地使用Kafka消息。你能在你的问题中添加一个最低版本的工作代码吗?你能在Spark UI中分享流媒体选项卡的屏幕截图吗?可能是作业正在排队等待“添加的作业”消息,我可以肯定地说,批处理间隔不是10秒,或者它们不完整,因为时间差是20k毫秒,即20秒。您可以发布一次作业生成的整个消息日志吗?你用的是什么卡夫卡数据流——直接的、带接收器的还是其他什么?你如何观察进展?你有记录显示卡夫卡的消息何时被使用吗?我使用的是Spark主日志和从日志。是的,我可以看到Spark非常缓慢地使用Kafka消息。你能在你的问题中添加一个最低版本的工作代码吗?你能在Spark UI中分享流媒体选项卡的屏幕截图吗?可能是作业正在排队等待“添加的作业”消息,我可以肯定地说,批处理间隔不是10秒,或者它们不完整,因为时间差是20k毫秒,即20秒。您可以发布一次作业生成的整个消息日志吗?你用的是什么卡夫卡数据流-直接的,带接收器的还是别的?