Pyspark 如何检查Spark中缓存数据帧/RDD/表的列表?

Pyspark 如何检查Spark中缓存数据帧/RDD/表的列表?,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我计划保存一些数据帧/表以缓存在Spark中。我想知道缓存了多少数据帧/表?可以通过Spark UI的存储选项卡或通过查看缓存的RDD/数据帧的详细信息 你可以照布赖恩说的做。根据Pyspark,它没有Scala API那样的'sc.getPersistentRDDs'方法 您可以跟踪问题您可以在pySpark中调用底层java对象 [{ "name": s.name(), "memSize_MB": float(s.memSiz

我计划保存一些数据帧/表以缓存在Spark中。我想知道缓存了多少数据帧/表?

可以通过Spark UI的存储选项卡或通过查看缓存的RDD/数据帧的详细信息

你可以照布赖恩说的做。根据Pyspark,它没有Scala API那样的'
sc.getPersistentRDDs
'方法


您可以跟踪问题

您可以在pySpark中调用底层java对象

[{
    "name": s.name(),     
    "memSize_MB": float(s.memSize())/ 2**20 , 
    "memSize_GB": float(s.memSize())/ 2**30, 
    "diskSize_MB": float(s.diskSize())/ 2**20, 
    "diskSize_GB": float(s.diskSize())/ 2**30, 
    "numPartitions": s.numPartitions(), 
    "numCachedPartitions": s.numCachedPartitions(),
    "callSite": s.callSite(),
    "externalBlockStoreSize": s.externalBlockStoreSize(),
    "id": s.id(),
    "isCached": s.isCached(),
    "parentIds": s.parentIds(),
    "scope": s.scope(),
    "storageLevel": s.storageLevel(),
    "toString": s.toString()
} for s in sc._jsc.sc().getRDDStorageInfo()]
有关更多信息,请参阅

根据客户的回答进行修改