Apache spark 如何找到Spark在RDD或数据帧的内存和磁盘上保留了多少数据

Apache spark 如何找到Spark在RDD或数据帧的内存和磁盘上保留了多少数据,apache-spark,Apache Spark,缓存数据帧之后。我们如何计算内存中保存了多少数据,磁盘中保存了多少数据 任何试图缓存的数据帧 source_df.cache()在spark UI中有一个选项卡“存储”。这将显示您需要的信息。 下面是另一个问题()的屏幕截图: spark UI中的更多信息可以在文档中找到我不想从UI进行监视。我想在创建RDD或数据帧后进行计算。有没有办法得到这些信息。在做了一些搜索之后,我发现我们可以使用getRDDStorageInfo()。需要有关的帮助。如何使用getRDDStorageInfo()函数

缓存数据帧之后。我们如何计算内存中保存了多少数据,磁盘中保存了多少数据

任何试图缓存的数据帧


source_df.cache()

在spark UI中有一个选项卡“存储”。这将显示您需要的信息。 下面是另一个问题()的屏幕截图:


spark UI中的更多信息可以在文档中找到

我不想从UI进行监视。我想在创建RDD或数据帧后进行计算。有没有办法得到这些信息。在做了一些搜索之后,我发现我们可以使用getRDDStorageInfo()。需要有关的帮助。如何使用getRDDStorageInfo()函数只需使用
sc.getRDDStorageInfo
其中sc是活动的SparkContext。这将为您提供一个
RDDInfo
s数组。RDD信息具有diskSize和memSize属性。此处为完整文档()。你还需要更多吗?