Pyspark作业在S3中处理JSON-内存不足错误-Java堆空间_Json_Amazon S3_Pyspark_Amazon Emr

Pyspark作业在S3中处理JSON-内存不足错误-Java堆空间

json amazon-s3 pyspark

Pyspark作业在S3中处理JSON-内存不足错误-Java堆空间,json,amazon-s3,pyspark,amazon-emr,Json,Amazon S3,Pyspark,Amazon Emr,我的Pyspark作业运行在AWS EMR集群上，该集群上有m5.24x大实例内存-384 GB，VCores-96-28个节点。总内存-10.2 TB 作业需要处理带有一条记录的小型JSON文件。每个作业最多可以处理90K个文件，但如果超过90K个文件，则无法处理Java.lang.OutOfMemoryError:Java堆空间作业需要在给定的一天内处理500K+个JSON文件作业只是将给定日期的s3文件夹中的数据读取到数据帧中，并将相同的数据帧以拼花格式写入另一个s3存储桶中。没有转换

我的Pyspark作业运行在AWS EMR集群上，该集群上有m5.24x大实例内存-384 GB，VCores-96-28个节点。总内存-10.2 TB

作业需要处理带有一条记录的小型JSON文件。每个作业最多可以处理90K个文件，但如果超过90K个文件，则无法处理Java.lang.OutOfMemoryError:Java堆空间

作业需要在给定的一天内处理500K+个JSON文件

作业只是将给定日期的s3文件夹中的数据读取到数据帧中，并将相同的数据帧以拼花格式写入另一个s3存储桶中。没有转换，它是从s3到s3的纯拷贝

我尝试使用8TB的内存来调整执行器和executor.memory的数量，但仍然失败，出现了相同的错误

在读取JSON文件时，作业是否需要在代码级别执行某些操作？它使用指向给定日期的df=spark.read.JSON S3路径，或者可以在spark设置级别调整任何内容

错误显示为Java堆空间内存不足-是因为驱动程序内存还是执行程序内存

非常感谢您的帮助！谢谢