Apache spark 长时间运行的spark应用程序的缓存累积_Apache Spark_Hadoop_Yarn

Apache spark 长时间运行的spark应用程序的缓存累积

apache-spark hadoop

Apache spark 长时间运行的spark应用程序的缓存累积,apache-spark,hadoop,yarn,Apache Spark,Hadoop,Yarn,我们的hadoop集群中有长期运行的spark流媒体应用程序。问题是缓存目录的大小一直在增长，直到停止spark应用程序目录：thread/local/usercache 现在，我们定期重新启动应用程序。不聪明的方式。。。可以限制目录的大小吗文件列表示例 -r-x------ 1 yarn hadoop 169M Sep 20 14:53 /data/hadoop/yarn/local/usercache/username/filecache/81/appname-SNAPSHOT.jar

我们的hadoop集群中有长期运行的spark流媒体应用程序。问题是缓存目录的大小一直在增长，直到停止spark应用程序

目录：thread/local/usercache

现在，我们定期重新启动应用程序。不聪明的方式。。。可以限制目录的大小吗

文件列表示例

-r-x------ 1 yarn hadoop 169M Sep 20 14:53 /data/hadoop/yarn/local/usercache/username/filecache/81/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 15:55 /data/hadoop/yarn/local/usercache/username/filecache/84/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 16:02 /data/hadoop/yarn/local/usercache/username/filecache/87/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 17:30 /data/hadoop/yarn/local/usercache/username/filecache/90/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 21 10:55 /data/hadoop/yarn/local/usercache/username/filecache/93/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 21 11:01 /data/hadoop/yarn/local/usercache/username/filecache/96/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 21 12:14 /data/hadoop/yarn/local/usercache/username/filecache/99/appname-SNAPSHOT.jar

您需要添加更多信息，例如，spark版本，是否使用结构化流媒体，是否执行状态聚合，状态/缓存等的逐出标准是什么基本上我们使用hdp 2.6.4。它包括hdfs 2.7.3、纱线+mr 2.7.3、Spark2 2.2.0。我们使用的结构化流媒体使用kafka 0.11.0.2.Yes逻辑具有状态聚合。更具体地说，其中一个大文件是thread/local/usercache/our_user/filecache/150/our_application.jar