Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长
当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时,完成写入操作所需的时间比通常的时间要长。以前,完成1000条记录的写入操作需要30分钟,但现在需要一个多小时。此外,在完成写入操作后,上下文切换到下一行代码需要更长的时间(20-30分钟)。我们不确定这是否是AWS-s3的问题,或者是因为Pyspark的延迟计算。有人能解释一下这个问题吗Python 使用pyspark代码从EC2实例向AWS-s3写入pyspark数据帧完成写入操作所需的时间比通常的时间要长,python,amazon-web-services,amazon-s3,amazon-ec2,pyspark,Python,Amazon Web Services,Amazon S3,Amazon Ec2,Pyspark,当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时,完成写入操作所需的时间比通常的时间要长。以前,完成1000条记录的写入操作需要30分钟,但现在需要一个多小时。此外,在完成写入操作后,上下文切换到下一行代码需要更长的时间(20-30分钟)。我们不确定这是否是AWS-s3的问题,或者是因为Pyspark的延迟计算。有人能解释一下这个问题吗 提前感谢这似乎是云环境的问题。我想到四件事,你可以检查一下: Spark版本:对于一些旧版本的Spark,会出现S3问题 S3中写入的数
提前感谢这似乎是云环境的问题。我想到四件事,你可以检查一下: