Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark作业在S3中处理JSON-内存不足错误-Java堆空间_Json_Amazon S3_Pyspark_Amazon Emr - Fatal编程技术网

Pyspark作业在S3中处理JSON-内存不足错误-Java堆空间

Pyspark作业在S3中处理JSON-内存不足错误-Java堆空间,json,amazon-s3,pyspark,amazon-emr,Json,Amazon S3,Pyspark,Amazon Emr,我的Pyspark作业运行在AWS EMR集群上,该集群上有m5.24x大实例内存-384 GB,VCores-96-28个节点。总内存-10.2 TB 作业需要处理带有一条记录的小型JSON文件。每个作业最多可以处理90K个文件,但如果超过90K个文件,则无法处理Java.lang.OutOfMemoryError:Java堆空间 作业需要在给定的一天内处理500K+个JSON文件 作业只是将给定日期的s3文件夹中的数据读取到数据帧中,并将相同的数据帧以拼花格式写入另一个s3存储桶中。没有转换

我的Pyspark作业运行在AWS EMR集群上,该集群上有m5.24x大实例内存-384 GB,VCores-96-28个节点。总内存-10.2 TB

作业需要处理带有一条记录的小型JSON文件。每个作业最多可以处理90K个文件,但如果超过90K个文件,则无法处理Java.lang.OutOfMemoryError:Java堆空间

作业需要在给定的一天内处理500K+个JSON文件

作业只是将给定日期的s3文件夹中的数据读取到数据帧中,并将相同的数据帧以拼花格式写入另一个s3存储桶中。没有转换,它是从s3到s3的纯拷贝

我尝试使用8TB的内存来调整执行器和executor.memory的数量,但仍然失败,出现了相同的错误

在读取JSON文件时,作业是否需要在代码级别执行某些操作?它使用指向给定日期的df=spark.read.JSON S3路径,或者可以在spark设置级别调整任何内容

错误显示为Java堆空间内存不足-是因为驱动程序内存还是执行程序内存

非常感谢您的帮助!谢谢