Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 火花写入s3文件夹会导致AWS EMR中的大量连接处于关闭等待状态,端口号:4040_Amazon Web Services_Apache Spark_Amazon Emr - Fatal编程技术网

Amazon web services 火花写入s3文件夹会导致AWS EMR中的大量连接处于关闭等待状态,端口号:4040

Amazon web services 火花写入s3文件夹会导致AWS EMR中的大量连接处于关闭等待状态,端口号:4040,amazon-web-services,apache-spark,amazon-emr,Amazon Web Services,Apache Spark,Amazon Emr,代码将sqlcontext数据帧结果作为拼花文件保存到S3文件夹。此火花作业导致许多连接被打开。虽然spark作业已完成,但AWS EMR中仍有许多密切的等待连接。 已使用spark.close、sc.close,但端口号4040的连接处于关闭等待状态。4040是默认的spark UI(驱动程序)端口。我不认为4040与这份工作有关。但是,如果您已经执行了spark.close、sc.close,这些端口应该关闭(或者您可以关闭应用程序,进程将释放所有端口)。我们找到了修复方法,在代码中我们刚刚

代码将sqlcontext数据帧结果作为拼花文件保存到S3文件夹。此火花作业导致许多连接被打开。虽然spark作业已完成,但AWS EMR中仍有许多密切的等待连接。
已使用spark.close、sc.close,但端口号4040的连接处于关闭等待状态。

4040是默认的spark UI(驱动程序)端口。我不认为4040与这份工作有关。但是,如果您已经执行了spark.close、sc.close,这些端口应该关闭(或者您可以关闭应用程序,进程将释放所有端口)。

我们找到了修复方法,在代码中我们刚刚使用了disable spark.ui.enabled参数。默认设置为“True”。为了不打开连接,我们需要设置为“False”


由于打开的连接太多,我们面临的问题影响了我们的EMR查询性能,随着时间的推移,它也影响了我们的spark性能。

虽然我们在最后使用了关闭功能,但它并没有关闭端口4040。每次运行作业时,它都会不断累积连接。但是关闭等待连接的数量会减少大约一个小时后回到零。