elasticsearch 诊断Apache Spark作业,elasticsearch,apache-spark,elasticsearch,Apache Spark" /> elasticsearch 诊断Apache Spark作业,elasticsearch,apache-spark,elasticsearch,Apache Spark" />

elasticsearch 诊断Apache Spark作业

elasticsearch 诊断Apache Spark作业,elasticsearch,apache-spark,elasticsearch,Apache Spark,从Elasticsearch索引加载数据时,是否有方法诊断spark作业。到目前为止,我不知道发生了什么,除了执行日志 2018年9月15日11:15:50信息内存存储:块广播0存储为内存中的值(估计大小325.4KB,可用大小25.9GB) 15/09/18 11:15:51信息缓存管理器:未找到分区rdd_2_0,正在计算它 15/09/18 11:15:51信息缓存管理器:未找到分区rdd_2_4,正在计算它 ES索引几乎为114.4GB,包含2295154个文档,试图将其缓存在内存中

从Elasticsearch索引加载数据时,是否有方法诊断spark作业。到目前为止,我不知道发生了什么,除了执行日志


2018年9月15日11:15:50信息内存存储:块广播0存储为内存中的值(估计大小325.4KB,可用大小25.9GB)
15/09/18 11:15:51信息缓存管理器:未找到分区rdd_2_0,正在计算它
15/09/18 11:15:51信息缓存管理器:未找到分区rdd_2_4,正在计算它

ES索引几乎为114.4GB,包含2295154个文档,试图将其缓存在内存中,以便我可以对数据集进行一些分析

Spark是独立运行的,并且一直运行,直到它超时为止,没有内存不足的异常

火花簇

工人:4名
核心:共128个,已使用128个
内存:总共499.5 GB,已使用200.0 GB
应用程序:1个正在运行,3个已完成
驱动程序:0正在运行,0已完成
状态:活着

您为驱动程序和执行器提供了多少内存?@eliasah spark.driver.memory=“10g”spark.executor.memory=“50g”您为每个执行器提供了50g内存?所以每个JVM 50克。事实证明,当堆小于等于30.5 GB时,JVM会使用一种技巧来压缩对象指针,这会导致内存浪费,降低CPU性能,并使GC难以处理大堆。您应该避免每次使用超过30.5g的RAMJVM@eliasah,但我有499.5G的内存,我想spark会用它在内存中缓存我的数据帧?添加更多的执行器,并将执行器内存降低到30