Apache spark Spark连续处理模式不会读取所有kafka主题分区
我正在结构化流媒体中试验Spark的连续处理模式,我正在阅读一篇有两个分区的Kafka主题,而Spark应用程序只有一个执行器和一个核心 该应用程序是一个简单的应用程序,它只需读取第一个主题,然后发布第二个主题。问题是我的控制台使用者从第二个主题读取消息,它只看到来自第一个主题的一个分区的消息。这意味着我的Spark应用程序只从主题的一个分区读取消息 如何使Spark应用程序从主题的两个分区读取 注意Apache spark Spark连续处理模式不会读取所有kafka主题分区,apache-spark,apache-kafka,spark-structured-streaming,spark-streaming-kafka,Apache Spark,Apache Kafka,Spark Structured Streaming,Spark Streaming Kafka,我正在结构化流媒体中试验Spark的连续处理模式,我正在阅读一篇有两个分区的Kafka主题,而Spark应用程序只有一个执行器和一个核心 该应用程序是一个简单的应用程序,它只需读取第一个主题,然后发布第二个主题。问题是我的控制台使用者从第二个主题读取消息,它只看到来自第一个主题的一个分区的消息。这意味着我的Spark应用程序只从主题的一个分区读取消息 如何使Spark应用程序从主题的两个分区读取 注意 我问这个问题的对象是那些可能遇到与我相同问题的人我在 基本上,在连续处理模式下,spark启动
我问这个问题的对象是那些可能遇到与我相同问题的人我在
基本上,在连续处理模式下,spark启动从主题的一个分区读取的长时间运行的任务,因此,由于每个核心只能运行一个任务,spark应用程序需要具有与其读取的kafka主题分区相同的核心。核心还是执行器?一个执行者可以占用一个核心。您的群集需要有足够多的可用内核,并且您的应用程序可以配置为最多容纳
cores*执行器
谢谢您的提问!我不是很明确,我指的是应用程序的内核总数,这意味着分配给应用程序的#cores/executor*#executors
,很高兴知道,谢谢。感兴趣的是,您是否使用连续处理来测量延迟?