Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark连续处理模式不会读取所有kafka主题分区_Apache Spark_Apache Kafka_Spark Structured Streaming_Spark Streaming Kafka - Fatal编程技术网

Apache spark Spark连续处理模式不会读取所有kafka主题分区

Apache spark Spark连续处理模式不会读取所有kafka主题分区,apache-spark,apache-kafka,spark-structured-streaming,spark-streaming-kafka,Apache Spark,Apache Kafka,Spark Structured Streaming,Spark Streaming Kafka,我正在结构化流媒体中试验Spark的连续处理模式,我正在阅读一篇有两个分区的Kafka主题,而Spark应用程序只有一个执行器和一个核心 该应用程序是一个简单的应用程序,它只需读取第一个主题,然后发布第二个主题。问题是我的控制台使用者从第二个主题读取消息,它只看到来自第一个主题的一个分区的消息。这意味着我的Spark应用程序只从主题的一个分区读取消息 如何使Spark应用程序从主题的两个分区读取 注意 我问这个问题的对象是那些可能遇到与我相同问题的人我在 基本上,在连续处理模式下,spark启动

我正在结构化流媒体中试验Spark的连续处理模式,我正在阅读一篇有两个分区的Kafka主题,而Spark应用程序只有一个执行器和一个核心

该应用程序是一个简单的应用程序,它只需读取第一个主题,然后发布第二个主题。问题是我的控制台使用者从第二个主题读取消息,它只看到来自第一个主题的一个分区的消息。这意味着我的Spark应用程序只从主题的一个分区读取消息

如何使Spark应用程序从主题的两个分区读取

注意


我问这个问题的对象是那些可能遇到与我相同问题的人

我在


基本上,在连续处理模式下,spark启动从主题的一个分区读取的长时间运行的任务,因此,由于每个核心只能运行一个任务,spark应用程序需要具有与其读取的kafka主题分区相同的核心。

核心还是执行器?一个执行者可以占用一个核心。您的群集需要有足够多的可用内核,并且您的应用程序可以配置为最多容纳
cores*执行器
谢谢您的提问!我不是很明确,我指的是应用程序的内核总数,这意味着分配给应用程序的
#cores/executor*#executors
,很高兴知道,谢谢。感兴趣的是,您是否使用连续处理来测量延迟?