Apache spark Spark cache RDD don';不显示在Spark History WebUI上-存储
我正在CDH-5.4.4中使用Apache spark Spark cache RDD don';不显示在Spark History WebUI上-存储,apache-spark,rdd,cloudera-cdh,Apache Spark,Rdd,Cloudera Cdh,我正在CDH-5.4.4中使用Spark-1.4.1 我使用了rdd.cache()函数,但它在Spark History WebUI上的Storage选项卡中没有显示任何内容 有人有同样的问题吗?如何修复它?您的RDD只有在其被评估后才会被缓存,强制评估(并因此填充缓存)最常用的方法是调用count,例如: rdd.cache() // Nothing in storage page yet & nothing cached rdd.count() // RDD evaluated,
Spark-1.4.1
我使用了rdd.cache()
函数,但它在Spark History WebUI上的Storage选项卡中没有显示任何内容
有人有同样的问题吗?如何修复它?您的RDD只有在其被评估后才会被缓存,强制评估(并因此填充缓存)最常用的方法是调用count
,例如:
rdd.cache() // Nothing in storage page yet & nothing cached
rdd.count() // RDD evaluated, cached & in storage page.
除了强制RDD评估(使用一个操作,如count
),我还必须启用Spark选项:
spark.eventLog.logBlockUpdates.enabled=true
顺便说一句,我正在使用Spark 2.3.0。我尝试了rdd.count()
然后它就工作了。我使用这个rdd与其他rdd连接,但它仍然没有显示在存储页面上。你知道这个问题吗?为了确保我理解,在count()之后,它出现了,然后你加入另一个rdd,但它没有出现?如果你想让它显示出来,你还需要缓存
/持久化
以及强制求值。哦,不!当我发布这个问题时,我正在谈论我的情况。我使用rdd.cache()
然后将它与另一个rdd连接起来。我把结果保存到拼花地板上。就我而言,它没有出现。我尝试了rdd.cache()
和rdd.count()
。它工作完美!好的,酷:)你可以试着在加入的RDD上运行toDebugString,看看发生了什么这是对我来说最关键的部分!非常感谢。