Apache spark Spark Streaming：在长时间运行后，许多排队的批处理没有出现问题_Apache Spark_Apache Kafka_Spark Streaming_Parquet_Spark Streaming Kafka

Apache spark Spark Streaming：在长时间运行后，许多排队的批处理没有出现问题

apache-spark apache-kafka

Apache spark Spark Streaming：在长时间运行后，许多排队的批处理没有出现问题,apache-spark,apache-kafka,spark-streaming,parquet,spark-streaming-kafka,Apache Spark,Apache Kafka,Spark Streaming,Parquet,Spark Streaming Kafka,我们编写了一个Spark Streaming应用程序，它接收Kafka消息（backpressureenabled和Spark.Streaming.Kafka.maxRatePerPartition集），将数据流映射到数据集，并在每批结束时将此数据集写入拼花地板文件（在DStream.foreachRDD内）一开始，一切似乎都很好，Spark流式处理时间大约为10秒，批处理间隔为30秒。生成的Kafka消息的数量比Spark应用程序中使用的消息数量要少一点，因此（在开始时）不需要背压。Spar

我们编写了一个Spark Streaming应用程序，它接收Kafka消息（

backpressure

enabled和

Spark.Streaming.Kafka.maxRatePerPartition

集），将数据流映射到数据集，并在每批结束时将此数据集写入拼花地板文件（在

DStream.foreachRDD

内）

一开始，一切似乎都很好，Spark流式处理时间大约为10秒，批处理间隔为30秒。生成的Kafka消息的数量比Spark应用程序中使用的消息数量要少一点，因此（在开始时）不需要背压。Spark作业在我们的Spark Warehouse HDFS目录中创建了许多拼花文件（每个批次x个分区=>x个拼花文件），正如预期的那样

一切正常运行数小时，但在大约12-14小时后，我们的处理时间迅速增加，例如，从一批到下一批，处理时间从正常的10秒跳到>1分钟。这当然会在短时间内导致一个巨大的批处理队列

我们在5分钟的批次中看到了类似的结果（这里的处理时间约为1.5分钟，经过一段时间后，每批次的处理时间突然增加到>10分钟）

当我们编写ORC而不是拼花文件时，也出现了类似的结果

由于批处理可以独立运行，因此我们不使用Spark Streaming的检查点功能

我们正在使用Hortonworks数据平台3.1.4和Spark 2.3.2以及Kafka 2.0.0

这是Spark Streaming中的已知问题吗？拼花地板/ORC桌子是否依赖于“旧”批次？或者这是一个基于一般文件还是基于Hadoop的问题？感谢您的帮助。

“批次可以独立运行”-您检查过了吗？因为如果不设置检查点，您的DAG肯定会无法控制地增长。我们如何/在哪里检查？Spark UI中有什么方法吗？对于我们来说，运行时似乎取决于编写的拼花地板/ORC文件的数量。将其附加到现有Spark表中是否存在已知问题？我们讨论的文件数是多少？我所知道的问题在“检查点设置过于频繁会导致谱系和任务大小增加，这可能会产生有害影响”一文中提到，例如，在其他地方讨论过。也就是说，如果你发现问题所在，我会非常感兴趣：）我们仍在搜索结果。查看大量拼花地板文件的问题，我们发现了以下有趣的问题：。我们将检查这两种情况（DAG太大，文件太多）。我们正在讨论约5000个（小）拼花文件（我们还将尝试使用更高的批处理间隔来增加它们）。