Apache spark 数据帧在内存中的寿命,Spark?

Apache spark 数据帧在内存中的寿命,Spark?,apache-spark,pyspark,apache-spark-sql,databricks,Apache Spark,Pyspark,Apache Spark Sql,Databricks,我的问题更多地涉及sprak内部的内存管理和GC 如果我要创建一个RDD,它将在我的执行器内存中保留多长时间 #程序启动 spark=SparkSession.builder.appName(“”.master(“纱线”).getOrCreate() df=火花点火范围(10) df.show() #其他业务 #节目结束!!! 一旦我的执行完成,它将被自动删除。如果是,是否有办法在程序执行期间手动删除它 垃圾收集如何以及何时调用Spark。我们可以实现定制的类似GC的JAVA程序并在Spark

我的问题更多地涉及sprak内部的内存管理和GC

如果我要创建一个RDD,它将在我的执行器内存中保留多长时间

#程序启动
spark=SparkSession.builder.appName(“”.master(“纱线”).getOrCreate()
df=火花点火范围(10)
df.show()
#其他业务
#节目结束!!!
  • 一旦我的执行完成,它将被自动删除。如果是,是否有办法在程序执行期间手动删除它
  • 垃圾收集如何以及何时调用Spark。我们可以实现定制的类似GC的JAVA程序并在Spark中使用它吗
  • DataFrame是Java对象,因此如果未找到引用,则对象有资格进行垃圾收集
  • 无法调用自定义gc
  • DataFrame是Java对象,因此如果未找到引用,则对象有资格进行垃圾收集
  • 无法调用自定义gc
      • “它将在我的执行者记忆中保留多长时间。”

        在这种特殊情况下,spark将永远不会具体化完整的数据集,而是一个接一个地迭代。只有少数操作符具体化了完整的数据集。这包括排序/连接/分组/写入等

        “一旦我的执行完成,它将被自动删除。”

        spark自动清除任何温度数据

        如果是,是否有办法在程序执行期间手动删除它

        spark仅在数据正在使用或已手动持久化时才保留该数据。你特别想要完成什么

        “如何以及何时在Spark中调用垃圾收集。”

        Spark在JVM上运行,当达到某些指标时,JVM会自动执行GC。

        “它将在我的执行器内存中保留多长时间。”

        在这种特殊情况下,spark将永远不会具体化完整的数据集,而是一个接一个地迭代。只有少数操作符具体化了完整的数据集。这包括排序/连接/分组/写入等

        “一旦我的执行完成,它将被自动删除。”

        spark自动清除任何温度数据

        如果是,是否有办法在程序执行期间手动删除它

        spark仅在数据正在使用或已手动持久化时才保留该数据。你特别想要完成什么

        “如何以及何时在Spark中调用垃圾收集。”

        Spark在JVM上运行,当达到某些指标时,JVM会自动执行GC