Apache spark 带分区的Spark流和Kafka问题

Apache spark 带分区的Spark流和Kafka问题,apache-spark,pyspark,Apache Spark,Pyspark,我使用Spark Streaming创建了一个应用程序,它从Kafka接收一些文件的路径,并打开它们来分析内容。我想在Spark中使用flatMap()函数并行读取这些文件,该函数返回每个文件中的元素。我使用Kafka主题发送文件路径,其中8个分区为每个批处理时间发送8个路径。默认情况下,Spark内部有8个分区,但路径分布不均匀,因此有些任务读取的文件比其他任务多。如何平衡8个分区,以便每个分区都有一条路径 谢谢。您的卡夫卡主题有多少个分区?卡夫卡主题有8个分区,我想在每个分区中发送一个路径,

我使用Spark Streaming创建了一个应用程序,它从Kafka接收一些文件的路径,并打开它们来分析内容。我想在Spark中使用flatMap()函数并行读取这些文件,该函数返回每个文件中的元素。我使用Kafka主题发送文件路径,其中8个分区为每个批处理时间发送8个路径。默认情况下,Spark内部有8个分区,但路径分布不均匀,因此有些任务读取的文件比其他任务多。如何平衡8个分区,以便每个分区都有一条路径


谢谢。

您的卡夫卡主题有多少个分区?卡夫卡主题有8个分区,我想在每个分区中发送一个路径,让Spark并行读取8个文件,每个路径一个线程