Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/314.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长_Python_Amazon Web Services_Amazon S3_Amazon Ec2_Pyspark - Fatal编程技术网

Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长

Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长,python,amazon-web-services,amazon-s3,amazon-ec2,pyspark,Python,Amazon Web Services,Amazon S3,Amazon Ec2,Pyspark,当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时,完成写入操作所需的时间比通常的时间要长。以前,完成1000条记录的写入操作需要30分钟,但现在需要一个多小时。此外,在完成写入操作后,上下文切换到下一行代码需要更长的时间(20-30分钟)。我们不确定这是否是AWS-s3的问题,或者是因为Pyspark的延迟计算。有人能解释一下这个问题吗 提前感谢这似乎是云环境的问题。我想到四件事,你可以检查一下: Spark版本:对于一些旧版本的Spark,会出现S3问题 S3中写入的数

当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时,完成写入操作所需的时间比通常的时间要长。以前,完成1000条记录的写入操作需要30分钟,但现在需要一个多小时。此外,在完成写入操作后,上下文切换到下一行代码需要更长的时间(20-30分钟)。我们不确定这是否是AWS-s3的问题,或者是因为Pyspark的延迟计算。有人能解释一下这个问题吗


提前感谢

这似乎是云环境的问题。我想到四件事,你可以检查一下:

  • Spark版本:对于一些旧版本的Spark,会出现S3问题
  • S3中写入的数据大小,以及存储时的数据格式
  • 内存/计算问题:内存或CPU的利用率可能达到最大水平
  • 临时内存存储问题-Spark在临时存储中存储了一些中间数据,这些数据可能已满 因此,有了更多的细节,解决方案可能会变得清晰