Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark流媒体作业保持内存增长_Apache Spark_Memory Leaks_Spark Streaming - Fatal编程技术网

Apache spark Spark流媒体作业保持内存增长

Apache spark Spark流媒体作业保持内存增长,apache-spark,memory-leaks,spark-streaming,Apache Spark,Memory Leaks,Spark Streaming,我在单机模式下运行spark v 1.6.1,具有64GB RAM和16核 我已经创建了五个工作者实例来创建五个执行器,因为在独立模式下,一个工作者节点中不能有多个执行器 配置: SPARK_WORKER_实例5 火花塞-工人-核心1 SPARK\u MASTER\u OPTS“-Dspark.deploy.default.Cores=5” 所有其他配置在spark_env.sh 我正在以1分钟的间隔运行spark streaming direct kafka作业,该作业从kafka获取数据,并

我在单机模式下运行spark v 1.6.1,具有64GB RAM和16核

我已经创建了五个工作者实例来创建五个执行器,因为在独立模式下,一个工作者节点中不能有多个执行器

配置: SPARK_WORKER_实例5

火花塞-工人-核心1

SPARK\u MASTER\u OPTS“-Dspark.deploy.default.Cores=5”

所有其他配置在
spark_env.sh

我正在以1分钟的间隔运行spark streaming direct kafka作业,该作业从kafka获取数据,并在聚合后将数据写入mongo

问题: 当我启动主进程和从进程时,它会启动一个主进程和五个工作进程。每个进程只消耗约212MB的ram。当我提交作业时,它会再次创建5个执行进程和1个作业进程,而且内存使用总量会增长到8GB,并且在没有数据处理的情况下也会随时间(缓慢)增长

我们将在最后取消持久化缓存的rdd,并将
spark.cleaner.ttl
设置为600。但记忆仍在增长

还有一件事,我已经看到了合并的SPARK-1706,这也是为什么我无法在一个工作进程中创建多个执行器。此外,在
SPARK_env.sh
文件中,设置与执行器相关的任何配置都处于仅纱线模式

任何帮助都将不胜感激


谢谢

嗨,你明白了吗?