Python java.lang.OutOfMemoryError:无法获取100字节的内存，获取了0_Python_Hadoop_Memory_Apache Spark_Pyspark

Python java.lang.OutOfMemoryError:无法获取100字节的内存，获取了0

python hadoop memory apache-spark pyspark

Python java.lang.OutOfMemoryError:无法获取100字节的内存，获取了0,python,hadoop,memory,apache-spark,pyspark,Python,Hadoop,Memory,Apache Spark,Pyspark,我使用以下命令在本地模式下使用Spark 2.0调用Pyspark： pyspark --executor-memory 4g --driver-memory 4g 正在从tsv文件读取输入数据帧，该数据帧具有580 K x 28列。我在数据帧上做了一些操作，然后我试图将它导出到tsv文件，我得到了这个错误 df.coalesce(1).write.save("sample.tsv",format = "csv",header = 'true', delimiter = '\t') 任何关于

我使用以下命令在本地模式下使用Spark 2.0调用Pyspark：

pyspark --executor-memory 4g --driver-memory 4g

正在从tsv文件读取输入数据帧，该数据帧具有580 K x 28列。我在数据帧上做了一些操作，然后我试图将它导出到tsv文件，我得到了这个错误

df.coalesce(1).write.save("sample.tsv",format = "csv",header = 'true', delimiter = '\t')

任何关于如何消除此错误的指针。我可以很容易地显示df或计算行数

输出数据帧为3100行23列

错误：

Job aborted due to stage failure: Task 0 in stage 70.0 failed 1 times, most recent failure: Lost task 0.0 in stage 70.0 (TID 1073, localhost): org.apache.spark.SparkException: Task failed while writing rows
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContainer.scala:261)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
    at org.apache.spark.scheduler.Task.run(Task.scala:85)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.OutOfMemoryError: Unable to acquire 100 bytes of memory, got 0
    at org.apache.spark.memory.MemoryConsumer.allocatePage(MemoryConsumer.java:129)
    at org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter.acquireNewPageIfNecessary(UnsafeExternalSorter.java:374)
    at org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter.insertRecord(UnsafeExternalSorter.java:396)
    at org.apache.spark.sql.execution.UnsafeExternalRowSorter.insertRow(UnsafeExternalRowSorter.java:94)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.sort_addToSorter$(Unknown Source)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:370)
    at org.apache.spark.sql.execution.WindowExec$$anonfun$15$$anon$1.fetchNextRow(WindowExec.scala:300)
    at org.apache.spark.sql.execution.WindowExec$$anonfun$15$$anon$1.<init>(WindowExec.scala:309)
    at org.apache.spark.sql.execution.WindowExec$$anonfun$15.apply(WindowExec.scala:289)
    at org.apache.spark.sql.execution.WindowExec$$anonfun$15.apply(WindowExec.scala:288)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:766)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:766)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.rdd.CoalescedRDD$$anonfun$compute$1.apply(CoalescedRDD.scala:96)
    at org.apache.spark.rdd.CoalescedRDD$$anonfun$compute$1.apply(CoalescedRDD.scala:95)
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
    at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply$mcV$sp(WriterContainer.scala:253)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply(WriterContainer.scala:252)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply(WriterContainer.scala:252)
    at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1325)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContainer.scala:258)
    ... 8 more

Driver stacktrace:

作业因阶段失败而中止：阶段70.0中的任务0失败1次，最近的失败：阶段70.0中的任务0.0丢失（TID 1073，localhost）：org.apache.SparkException:任务在写入行时失败
位于org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows（WriterContainer.scala:261）
在org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply（InsertIntoHadoopFsRelationCommand.scala:143）
在org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply（InsertIntoHadoopFsRelationCommand.scala:143）
位于org.apache.spark.scheduler.ResultTask.runTask（ResultTask.scala:70）
位于org.apache.spark.scheduler.Task.run（Task.scala:85）
位于org.apache.spark.executor.executor$TaskRunner.run（executor.scala:274）
位于java.util.concurrent.ThreadPoolExecutor.runWorker（ThreadPoolExecutor.java:1142）
位于java.util.concurrent.ThreadPoolExecutor$Worker.run（ThreadPoolExecutor.java:617）
运行（Thread.java:745）
原因：java.lang.OutOfMemoryError:无法获取100字节内存，获得0
位于org.apache.spark.memory.MemoryConsumer.allocatePage（MemoryConsumer.java:129）
在org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter.AcquireNewPageIfEssential上（UnsafeExternalSorter.java:374）
位于org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter.insertRecord（UnsafeExternalSorter.java:396）
位于org.apache.spark.sql.execution.UnsafeExternalRowSorter.insertRow（UnsafeExternalRowSorter.java:94）
位于org.apache.spark.sql.catalyst.expressions.GeneratedClass$GenerateEditor.sort_addToSorter$（未知源）
位于org.apache.spark.sql.catalyst.expressions.GeneratedClass$GenerateEditor.processNext（未知源）
位于org.apache.spark.sql.execution.BufferedRowIterator.hasNext（BufferedRowIterator.java:43）
位于org.apache.spark.sql.execution.whisttagecodegenexec$$anonfun$8$$anon$1.hasNext（whisttagecodegenexec.scala:370）
位于org.apache.spark.sql.execution.WindowExec$$anonfun$15$$anon$1.fetchNextRow（WindowExec.scala:300）
位于org.apache.spark.sql.execution.WindowExec$$anonfun$15$$anon$1。（WindowExec.scala:309）
位于org.apache.spark.sql.execution.WindowExec$$anonfun$15.apply（WindowExec.scala:289）
位于org.apache.spark.sql.execution.WindowExec$$anonfun$15.apply（WindowExec.scala:288）
位于org.apache.spark.rdd.rdd$$anonfun$mapPartitions$1$$anonfun$apply$23.apply（rdd.scala:766）
位于org.apache.spark.rdd.rdd$$anonfun$mapPartitions$1$$anonfun$apply$23.apply（rdd.scala:766）
在org.apache.spark.rdd.MapPartitionsRDD.compute上（MapPartitionsRDD.scala:38）
在org.apache.spark.rdd.rdd.computeOrReadCheckpoint（rdd.scala:319）
位于org.apache.spark.rdd.rdd.iterator（rdd.scala:283）
在org.apache.spark.rdd.MapPartitionsRDD.compute上（MapPartitionsRDD.scala:38）
在org.apache.spark.rdd.rdd.computeOrReadCheckpoint（rdd.scala:319）
位于org.apache.spark.rdd.rdd.iterator（rdd.scala:283）
位于org.apache.spark.rdd.ZippedPartitionsRDD2.compute（ZippedPartitionsRDD.scala:89）
在org.apache.spark.rdd.rdd.computeOrReadCheckpoint（rdd.scala:319）
位于org.apache.spark.rdd.rdd.iterator（rdd.scala:283）
位于org.apache.spark.rdd.ZippedPartitionsRDD2.compute（ZippedPartitionsRDD.scala:89）
在org.apache.spark.rdd.rdd.computeOrReadCheckpoint（rdd.scala:319）
位于org.apache.spark.rdd.rdd.iterator（rdd.scala:283）
位于org.apache.spark.rdd.ZippedPartitionsRDD2.compute（ZippedPartitionsRDD.scala:89）
在org.apache.spark.rdd.rdd.computeOrReadCheckpoint（rdd.scala:319）
位于org.apache.spark.rdd.rdd.iterator（rdd.scala:283）
位于org.apache.spark.rdd.CoalescedRDD$$anonfun$compute$1.apply（CoalescedRDD.scala:96）
位于org.apache.spark.rdd.CoalescedRDD$$anonfun$compute$1.apply（CoalescedRDD.scala:95）
位于scala.collection.Iterator$$anon$12.nextCur（Iterator.scala:434）
位于scala.collection.Iterator$$anon$12.hasNext（Iterator.scala:440）
位于org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply$mcV$sp（writeContainer.scala:253）
在org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply（writeContainer.scala:252）
在org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply（writeContainer.scala:252）
位于org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks（Utils.scala:1325）
位于org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows（WriterContainer.scala:258）
... 8个以上
驱动程序堆栈跟踪：

我认为这个问题的原因是，尽管它避免了完全洗牌（如），但它必须将数据压缩到请求的分区数

在这里，您请求将所有数据放入一个分区，因此一个任务（并且只有一个任务）必须处理所有数据，这可能会导致其容器受到内存限制

因此，在这种情况下，要么要求分区多于1个，要么避免

coalesce（）

否则，您可以尝试以下链接中提供的解决方案，以增加内存配置：

我的问题确实是

coalesce（）

。我所做的是导出文件，而不是使用

coalesce（）

，而是使用

df.write.parquet（“testP”）

。然后读回文件