Apache spark 为什么某些批次不接收卡夫卡数据？_Apache Spark_Apache Kafka_Spark Streaming

Apache spark 为什么某些批次不接收卡夫卡数据？

apache-spark apache-kafka

Apache spark 为什么某些批次不接收卡夫卡数据？,apache-spark,apache-kafka,spark-streaming,Apache Spark,Apache Kafka,Spark Streaming,我正在使用卡夫卡的Spark Streaming，批处理间隔为10秒。我确信卡夫卡队列总是能够及时为Spark提供数据。但有时Spark可能会堆积在那里几分钟，并不断输出以下日志： INFO scheduler.JobScheduler: Added jobs for time 1453521260000 ms INFO scheduler.JobScheduler: Added jobs for time 1453521280000 ms INFO scheduler.JobScheduler

我正在使用卡夫卡的Spark Streaming，批处理间隔为10秒。我确信卡夫卡队列总是能够及时为Spark提供数据。但有时Spark可能会堆积在那里几分钟，并不断输出以下日志：

INFO scheduler.JobScheduler: Added jobs for time 1453521260000 ms
INFO scheduler.JobScheduler: Added jobs for time 1453521280000 ms
INFO scheduler.JobScheduler: Added jobs for time 1453521300000 ms
INFO scheduler.JobScheduler: Added jobs for time 1453521320000 ms

有什么想法吗？为什么Spark会堆积在那里并不断增加工作，但没有任何进展？

你如何观察进展？你有记录显示卡夫卡的消息何时被使用吗？我使用的是Spark主日志和从日志。是的，我可以看到Spark非常缓慢地使用Kafka消息。你能在你的问题中添加一个最低版本的工作代码吗？你能在Spark UI中分享流媒体选项卡的屏幕截图吗？可能是作业正在排队等待“添加的作业”消息，我可以肯定地说，批处理间隔不是10秒，或者它们不完整，因为时间差是20k毫秒，即20秒。您可以发布一次作业生成的整个消息日志吗？你用的是什么卡夫卡数据流——直接的、带接收器的还是其他什么？你如何观察进展？你有记录显示卡夫卡的消息何时被使用吗？我使用的是Spark主日志和从日志。是的，我可以看到Spark非常缓慢地使用Kafka消息。你能在你的问题中添加一个最低版本的工作代码吗？你能在Spark UI中分享流媒体选项卡的屏幕截图吗？可能是作业正在排队等待“添加的作业”消息，我可以肯定地说，批处理间隔不是10秒，或者它们不完整，因为时间差是20k毫秒，即20秒。您可以发布一次作业生成的整个消息日志吗？你用的是什么卡夫卡数据流-直接的，带接收器的还是别的？