<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 诊断Apache Spark作业_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Apache Spark

elasticsearch 诊断Apache Spark作业

apache-spark

elasticsearch 诊断Apache Spark作业,elasticsearch,apache-spark,elasticsearch,Apache Spark,从Elasticsearch索引加载数据时，是否有方法诊断spark作业。到目前为止，我不知道发生了什么，除了执行日志 2018年9月15日11:15:50信息内存存储：块广播0存储为内存中的值（估计大小325.4KB，可用大小25.9GB） 15/09/18 11:15:51信息缓存管理器：未找到分区rdd_2_0，正在计算它 15/09/18 11:15:51信息缓存管理器：未找到分区rdd_2_4，正在计算它 ES索引几乎为114.4GB，包含2295154个文档，试图将其缓存在内存中

从Elasticsearch索引加载数据时，是否有方法诊断spark作业。到目前为止，我不知道发生了什么，除了执行日志


2018年9月15日11:15:50信息内存存储：块广播0存储为内存中的值（估计大小325.4KB，可用大小25.9GB）
15/09/18 11:15:51信息缓存管理器：未找到分区rdd_2_0，正在计算它
15/09/18 11:15:51信息缓存管理器：未找到分区rdd_2_4，正在计算它

ES索引几乎为114.4GB，包含2295154个文档，试图将其缓存在内存中，以便我可以对数据集进行一些分析

Spark是独立运行的，并且一直运行，直到它超时为止，没有内存不足的异常

火花簇


工人：4名
核心：共128个，已使用128个
内存：总共499.5 GB，已使用200.0 GB
应用程序：1个正在运行，3个已完成
驱动程序：0正在运行，0已完成
状态：活着

您为驱动程序和执行器提供了多少内存？@eliasah spark.driver.memory=“10g”spark.executor.memory=“50g”您为每个执行器提供了50g内存？所以每个JVM 50克。事实证明，当堆小于等于30.5 GB时，JVM会使用一种技巧来压缩对象指针，这会导致内存浪费，降低CPU性能，并使GC难以处理大堆。您应该避免每次使用超过30.5g的RAMJVM@eliasah，但我有499.5G的内存，我想spark会用它在内存中缓存我的数据帧？添加更多的执行器，并将执行器内存降低到30