Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark streaming with version>;2.1.1比2.1.1慢_Apache Spark_Pyspark_Apache Spark Sql_Spark Streaming - Fatal编程技术网

Apache spark Spark streaming with version>;2.1.1比2.1.1慢

Apache spark Spark streaming with version>;2.1.1比2.1.1慢,apache-spark,pyspark,apache-spark-sql,spark-streaming,Apache Spark,Pyspark,Apache Spark Sql,Spark Streaming,我有一个使用spark 2.1.1的spark流媒体应用程序,升级到更高版本后,我的性能更差(根据UI统计,计算时间更长)。具体来说,我将其与以下spark版本2.3.1、2.3.3、2.4.3和2.4.4(最新版本)进行了开箱即用的比较 我比较了配置Spark配置页面,没有发现可疑的东西。关于我的案例,我使用Pyspark,该应用程序是一个流式api,它读取Kafka,进行一些聚合,并在HDFS中写入拼花文件 有人知道它在配置中发生了什么变化,性能变得更差吗?如果在更高版本中使用数据流而不是结

我有一个使用spark 2.1.1的spark流媒体应用程序,升级到更高版本后,我的性能更差(根据UI统计,计算时间更长)。具体来说,我将其与以下spark版本2.3.1、2.3.3、2.4.3和2.4.4(最新版本)进行了开箱即用的比较

我比较了配置Spark配置页面,没有发现可疑的东西。关于我的案例,我使用Pyspark,该应用程序是一个流式api,它读取Kafka,进行一些聚合,并在HDFS中写入拼花文件


有人知道它在配置中发生了什么变化,性能变得更差吗?

如果在更高版本中使用数据流而不是结构流,那么可能有几件事,也就是说,使用pyspark的速度总是较慢,并且性能可能会有所变化,或者只是卡夫卡的划分方式与不时影响性能的执行者数量有关。如果在更高版本中使用数据流而不是结构流,那么使用pyspark总是比较慢,并且性能可能会有所变化,或者只是你的卡夫卡被分割的方式与你的遗嘱执行人的数量有关,这会不时影响你的表现。