Apache spark Spark streaming with version>；2.1.1比2.1.1慢_Apache Spark_Pyspark_Apache Spark Sql_Spark Streaming

Apache spark Spark streaming with version>；2.1.1比2.1.1慢

apache-spark pyspark

Apache spark Spark streaming with version>；2.1.1比2.1.1慢,apache-spark,pyspark,apache-spark-sql,spark-streaming,Apache Spark,Pyspark,Apache Spark Sql,Spark Streaming,我有一个使用spark 2.1.1的spark流媒体应用程序，升级到更高版本后，我的性能更差（根据UI统计，计算时间更长）。具体来说，我将其与以下spark版本2.3.1、2.3.3、2.4.3和2.4.4（最新版本）进行了开箱即用的比较我比较了配置Spark配置页面，没有发现可疑的东西。关于我的案例，我使用Pyspark，该应用程序是一个流式api，它读取Kafka，进行一些聚合，并在HDFS中写入拼花文件有人知道它在配置中发生了什么变化，性能变得更差吗？如果在更高版本中使用数据流而不是结

我有一个使用spark 2.1.1的spark流媒体应用程序，升级到更高版本后，我的性能更差（根据UI统计，计算时间更长）。具体来说，我将其与以下spark版本2.3.1、2.3.3、2.4.3和2.4.4（最新版本）进行了开箱即用的比较

我比较了配置Spark配置页面，没有发现可疑的东西。关于我的案例，我使用Pyspark，该应用程序是一个流式api，它读取Kafka，进行一些聚合，并在HDFS中写入拼花文件

有人知道它在配置中发生了什么变化，性能变得更差吗？

如果在更高版本中使用数据流而不是结构流，那么可能有几件事，也就是说，使用pyspark的速度总是较慢，并且性能可能会有所变化，或者只是卡夫卡的划分方式与不时影响性能的执行者数量有关。如果在更高版本中使用数据流而不是结构流，那么使用pyspark总是比较慢，并且性能可能会有所变化，或者只是你的卡夫卡被分割的方式与你的遗嘱执行人的数量有关，这会不时影响你的表现。