Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长_Python_Amazon Web Services_Amazon S3_Amazon Ec2_Pyspark

Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长

python amazon-web-services amazon-s3 amazon-ec2 pyspark

Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长,python,amazon-web-services,amazon-s3,amazon-ec2,pyspark,Python,Amazon Web Services,Amazon S3,Amazon Ec2,Pyspark,当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时，完成写入操作所需的时间比通常的时间要长。以前，完成1000条记录的写入操作需要30分钟，但现在需要一个多小时。此外，在完成写入操作后，上下文切换到下一行代码需要更长的时间（20-30分钟）。我们不确定这是否是AWS-s3的问题，或者是因为Pyspark的延迟计算。有人能解释一下这个问题吗提前感谢这似乎是云环境的问题。我想到四件事，你可以检查一下： Spark版本：对于一些旧版本的Spark，会出现S3问题 S3中写入的数

当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时，完成写入操作所需的时间比通常的时间要长。以前，完成1000条记录的写入操作需要30分钟，但现在需要一个多小时。此外，在完成写入操作后，上下文切换到下一行代码需要更长的时间（20-30分钟）。我们不确定这是否是AWS-s3的问题，或者是因为Pyspark的延迟计算。有人能解释一下这个问题吗

提前感谢

这似乎是云环境的问题。我想到四件事，你可以检查一下：

Spark版本：对于一些旧版本的Spark，会出现S3问题

S3中写入的数据大小，以及存储时的数据格式

内存/计算问题：内存或CPU的利用率可能达到最大水平

临时内存存储问题-Spark在临时存储中存储了一些中间数据，这些数据可能已满因此，有了更多的细节，解决方案可能会变得清晰