Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark Streaming:在长时间运行后,许多排队的批处理没有出现问题_Apache Spark_Apache Kafka_Spark Streaming_Parquet_Spark Streaming Kafka - Fatal编程技术网

Apache spark Spark Streaming:在长时间运行后,许多排队的批处理没有出现问题

Apache spark Spark Streaming:在长时间运行后,许多排队的批处理没有出现问题,apache-spark,apache-kafka,spark-streaming,parquet,spark-streaming-kafka,Apache Spark,Apache Kafka,Spark Streaming,Parquet,Spark Streaming Kafka,我们编写了一个Spark Streaming应用程序,它接收Kafka消息(backpressureenabled和Spark.Streaming.Kafka.maxRatePerPartition集),将数据流映射到数据集,并在每批结束时将此数据集写入拼花地板文件(在DStream.foreachRDD内) 一开始,一切似乎都很好,Spark流式处理时间大约为10秒,批处理间隔为30秒。生成的Kafka消息的数量比Spark应用程序中使用的消息数量要少一点,因此(在开始时)不需要背压。Spar

我们编写了一个Spark Streaming应用程序,它接收Kafka消息(
backpressure
enabled和
Spark.Streaming.Kafka.maxRatePerPartition
集),将数据流映射到数据集,并在每批结束时将此数据集写入拼花地板文件(在
DStream.foreachRDD
内)

一开始,一切似乎都很好,Spark流式处理时间大约为10秒,批处理间隔为30秒。生成的Kafka消息的数量比Spark应用程序中使用的消息数量要少一点,因此(在开始时)不需要背压。Spark作业在我们的Spark Warehouse HDFS目录中创建了许多拼花文件(每个批次x个分区=>x个拼花文件),正如预期的那样

一切正常运行数小时,但在大约12-14小时后,我们的处理时间迅速增加,例如,从一批到下一批,处理时间从正常的10秒跳到>1分钟。这当然会在短时间内导致一个巨大的批处理队列

我们在5分钟的批次中看到了类似的结果(这里的处理时间约为1.5分钟,经过一段时间后,每批次的处理时间突然增加到>10分钟)

当我们编写ORC而不是拼花文件时,也出现了类似的结果

由于批处理可以独立运行,因此我们不使用Spark Streaming的检查点功能

我们正在使用Hortonworks数据平台3.1.4和Spark 2.3.2以及Kafka 2.0.0


这是Spark Streaming中的已知问题吗?拼花地板/ORC桌子是否依赖于“旧”批次?或者这是一个基于一般文件还是基于Hadoop的问题?感谢您的帮助。

“批次可以独立运行”-您检查过了吗?因为如果不设置检查点,您的DAG肯定会无法控制地增长。我们如何/在哪里检查?Spark UI中有什么方法吗?对于我们来说,运行时似乎取决于编写的拼花地板/ORC文件的数量。将其附加到现有Spark表中是否存在已知问题?我们讨论的文件数是多少?我所知道的问题在“检查点设置过于频繁会导致谱系和任务大小增加,这可能会产生有害影响”一文中提到,例如,在其他地方讨论过。也就是说,如果你发现问题所在,我会非常感兴趣:)我们仍在搜索结果。查看大量拼花地板文件的问题,我们发现了以下有趣的问题:。我们将检查这两种情况(DAG太大,文件太多)。我们正在讨论约5000个(小)拼花文件(我们还将尝试使用更高的批处理间隔来增加它们)。