Apache spark Spark streaming with version>;2.1.1比2.1.1慢
我有一个使用spark 2.1.1的spark流媒体应用程序,升级到更高版本后,我的性能更差(根据UI统计,计算时间更长)。具体来说,我将其与以下spark版本2.3.1、2.3.3、2.4.3和2.4.4(最新版本)进行了开箱即用的比较 我比较了配置Spark配置页面,没有发现可疑的东西。关于我的案例,我使用Pyspark,该应用程序是一个流式api,它读取Kafka,进行一些聚合,并在HDFS中写入拼花文件Apache spark Spark streaming with version>;2.1.1比2.1.1慢,apache-spark,pyspark,apache-spark-sql,spark-streaming,Apache Spark,Pyspark,Apache Spark Sql,Spark Streaming,我有一个使用spark 2.1.1的spark流媒体应用程序,升级到更高版本后,我的性能更差(根据UI统计,计算时间更长)。具体来说,我将其与以下spark版本2.3.1、2.3.3、2.4.3和2.4.4(最新版本)进行了开箱即用的比较 我比较了配置Spark配置页面,没有发现可疑的东西。关于我的案例,我使用Pyspark,该应用程序是一个流式api,它读取Kafka,进行一些聚合,并在HDFS中写入拼花文件 有人知道它在配置中发生了什么变化,性能变得更差吗?如果在更高版本中使用数据流而不是结
有人知道它在配置中发生了什么变化,性能变得更差吗?如果在更高版本中使用数据流而不是结构流,那么可能有几件事,也就是说,使用pyspark的速度总是较慢,并且性能可能会有所变化,或者只是卡夫卡的划分方式与不时影响性能的执行者数量有关。如果在更高版本中使用数据流而不是结构流,那么使用pyspark总是比较慢,并且性能可能会有所变化,或者只是你的卡夫卡被分割的方式与你的遗嘱执行人的数量有关,这会不时影响你的表现。