Apache spark Spark kafka流媒体获取更多信息_Apache Spark_Apache Kafka_Spark Streaming

Apache spark Spark kafka流媒体获取更多信息

apache-spark apache-kafka

Apache spark Spark kafka流媒体获取更多信息,apache-spark,apache-kafka,spark-streaming,Apache Spark,Apache Kafka,Spark Streaming,我用的是卡夫卡0.9和星火1.6。Spark Streaming应用程序通过direct stream API（版本2.10-1.6.0）从卡夫卡传输消息我有3个工人，每个工人有8 GB内存。每分钟我都会收到4000条信息给卡夫卡，而在spark中，每个工人都会收到600条信息。我总是看到卡夫卡偏移量到火花偏移量之间的滞后我有5个卡夫卡分区有没有办法让Spark为卡夫卡的每一次拉动都传递更多的信息我的流媒体频率是2秒应用程序中的spark配置 "maxCoresForJob": 3,

我用的是卡夫卡0.9和星火1.6。Spark Streaming应用程序通过direct stream API（版本2.10-1.6.0）从卡夫卡传输消息

我有3个工人，每个工人有8 GB内存。每分钟我都会收到4000条信息给卡夫卡，而在spark中，每个工人都会收到600条信息。我总是看到卡夫卡偏移量到火花偏移量之间的滞后

我有5个卡夫卡分区

有没有办法让Spark为卡夫卡的每一次拉动都传递更多的信息

我的流媒体频率是2秒

应用程序中的spark配置

"maxCoresForJob": 3,
"durationInMilis": 2000,
"auto.offset.reset": "largest",
"autocommit.enable": "true",

请你再解释一下好吗？您是否检查了执行哪段代码需要更长的时间？从cloudera管理器->纱线-->应用程序->选择您的应用程序-->应用程序主机-->流式处理，然后选择一个批次并单击。试着找出什么任务需要更长的时间来执行。你用了多少遗嘱执行人？对于5个分区，最好有5个执行器

您可以发布您的转换逻辑，可能有一些方法可以调整

谢谢

请提供更多详细信息，包括API版本和配置。