Pyspark 如何检查Spark中缓存数据帧/RDD/表的列表?
我计划保存一些数据帧/表以缓存在Spark中。我想知道缓存了多少数据帧/表?可以通过Spark UI的存储选项卡或通过查看缓存的RDD/数据帧的详细信息 你可以照布赖恩说的做。根据Pyspark,它没有Scala API那样的'Pyspark 如何检查Spark中缓存数据帧/RDD/表的列表?,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我计划保存一些数据帧/表以缓存在Spark中。我想知道缓存了多少数据帧/表?可以通过Spark UI的存储选项卡或通过查看缓存的RDD/数据帧的详细信息 你可以照布赖恩说的做。根据Pyspark,它没有Scala API那样的'sc.getPersistentRDDs'方法 您可以跟踪问题您可以在pySpark中调用底层java对象 [{ "name": s.name(), "memSize_MB": float(s.memSiz
sc.getPersistentRDDs
'方法
您可以跟踪问题您可以在pySpark中调用底层java对象
[{
"name": s.name(),
"memSize_MB": float(s.memSize())/ 2**20 ,
"memSize_GB": float(s.memSize())/ 2**30,
"diskSize_MB": float(s.diskSize())/ 2**20,
"diskSize_GB": float(s.diskSize())/ 2**30,
"numPartitions": s.numPartitions(),
"numCachedPartitions": s.numCachedPartitions(),
"callSite": s.callSite(),
"externalBlockStoreSize": s.externalBlockStoreSize(),
"id": s.id(),
"isCached": s.isCached(),
"parentIds": s.parentIds(),
"scope": s.scope(),
"storageLevel": s.storageLevel(),
"toString": s.toString()
} for s in sc._jsc.sc().getRDDStorageInfo()]
有关更多信息,请参阅
根据客户的回答进行修改