Apache spark Spark连续处理模式不会读取所有kafka主题分区_Apache Spark_Apache Kafka_Spark Structured Streaming_Spark Streaming Kafka

Apache spark Spark连续处理模式不会读取所有kafka主题分区

apache-spark apache-kafka

Apache spark Spark连续处理模式不会读取所有kafka主题分区,apache-spark,apache-kafka,spark-structured-streaming,spark-streaming-kafka,Apache Spark,Apache Kafka,Spark Structured Streaming,Spark Streaming Kafka,我正在结构化流媒体中试验Spark的连续处理模式，我正在阅读一篇有两个分区的Kafka主题，而Spark应用程序只有一个执行器和一个核心该应用程序是一个简单的应用程序，它只需读取第一个主题，然后发布第二个主题。问题是我的控制台使用者从第二个主题读取消息，它只看到来自第一个主题的一个分区的消息。这意味着我的Spark应用程序只从主题的一个分区读取消息如何使Spark应用程序从主题的两个分区读取注意我问这个问题的对象是那些可能遇到与我相同问题的人我在基本上，在连续处理模式下，spark启动

我正在结构化流媒体中试验Spark的连续处理模式，我正在阅读一篇有两个分区的Kafka主题，而Spark应用程序只有一个执行器和一个核心

该应用程序是一个简单的应用程序，它只需读取第一个主题，然后发布第二个主题。问题是我的控制台使用者从第二个主题读取消息，它只看到来自第一个主题的一个分区的消息。这意味着我的Spark应用程序只从主题的一个分区读取消息

如何使Spark应用程序从主题的两个分区读取

注意

我问这个问题的对象是那些可能遇到与我相同问题的人

我在

基本上，在连续处理模式下，spark启动从主题的一个分区读取的长时间运行的任务，因此，由于每个核心只能运行一个任务，spark应用程序需要具有与其读取的kafka主题分区相同的核心。

核心还是执行器？一个执行者可以占用一个核心。您的群集需要有足够多的可用内核，并且您的应用程序可以配置为最多容纳

cores*执行器

谢谢您的提问！我不是很明确，我指的是应用程序的内核总数，这意味着分配给应用程序的

#cores/executor*#executors

，很高兴知道，谢谢。感兴趣的是，您是否使用连续处理来测量延迟？