Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/date/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark kafka流媒体获取更多信息_Apache Spark_Apache Kafka_Spark Streaming - Fatal编程技术网

Apache spark Spark kafka流媒体获取更多信息

Apache spark Spark kafka流媒体获取更多信息,apache-spark,apache-kafka,spark-streaming,Apache Spark,Apache Kafka,Spark Streaming,我用的是卡夫卡0.9和星火1.6。Spark Streaming应用程序通过direct stream API(版本2.10-1.6.0)从卡夫卡传输消息 我有3个工人,每个工人有8 GB内存。每分钟我都会收到4000条信息给卡夫卡,而在spark中,每个工人都会收到600条信息。我总是看到卡夫卡偏移量到火花偏移量之间的滞后 我有5个卡夫卡分区 有没有办法让Spark为卡夫卡的每一次拉动都传递更多的信息 我的流媒体频率是2秒 应用程序中的spark配置 "maxCoresForJob": 3,

我用的是卡夫卡0.9和星火1.6。Spark Streaming应用程序通过direct stream API(版本2.10-1.6.0)从卡夫卡传输消息

我有3个工人,每个工人有8 GB内存。每分钟我都会收到4000条信息给卡夫卡,而在spark中,每个工人都会收到600条信息。我总是看到卡夫卡偏移量到火花偏移量之间的滞后

我有5个卡夫卡分区

有没有办法让Spark为卡夫卡的每一次拉动都传递更多的信息

我的流媒体频率是2秒

应用程序中的spark配置

"maxCoresForJob": 3,
"durationInMilis": 2000,
"auto.offset.reset": "largest",
"autocommit.enable": "true",

请你再解释一下好吗?您是否检查了执行哪段代码需要更长的时间?从cloudera管理器->纱线-->应用程序->选择您的应用程序-->应用程序主机-->流式处理,然后选择一个批次并单击。试着找出什么任务需要更长的时间来执行。你用了多少遗嘱执行人?对于5个分区,最好有5个执行器

您可以发布您的转换逻辑,可能有一些方法可以调整


谢谢

请提供更多详细信息,包括API版本和配置。