Apache spark 强制火花流';不同机器的卡夫卡消费者流程

Apache spark 强制火花流';不同机器的卡夫卡消费者流程,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在使用与卡夫卡流媒体集成的流媒体 我的卡夫卡主题有80个分区,而我的机器有40个内核。我发现当作业运行时,kafka使用者进程只部署到两台机器上(40*2=80),这两台机器的带宽将非常高 我想知道是否有任何方法可以控制卡夫卡消费者的调度,以平衡带宽和内存使用?您可以使用Spark软件包中的该消费者 此使用者已在许多生产部署中成功运行,这是最可靠的基于接收器的低级使用者 这就提供了对偏移提交和接收器容错的更多控制。这还可以控制您可以为主题配置多少接收器,这将决定并行性 迪比恩杜

我正在使用与卡夫卡流媒体集成的流媒体

我的卡夫卡主题有80个分区,而我的机器有40个内核。我发现当作业运行时,kafka使用者进程只部署到两台机器上(40*2=80),这两台机器的带宽将非常高


我想知道是否有任何方法可以控制卡夫卡消费者的调度,以平衡带宽和内存使用?

您可以使用Spark软件包中的该消费者

此使用者已在许多生产部署中成功运行,这是最可靠的基于接收器的低级使用者

这就提供了对偏移提交和接收器容错的更多控制。这还可以控制您可以为主题配置多少接收器,这将决定并行性

迪比恩杜