Apache spark 长时间运行的spark应用程序的缓存累积
我们的hadoop集群中有长期运行的spark流媒体应用程序。问题是缓存目录的大小一直在增长,直到停止spark应用程序 目录:thread/local/usercache 现在,我们定期重新启动应用程序。不聪明的方式。。。 可以限制目录的大小吗 文件列表示例Apache spark 长时间运行的spark应用程序的缓存累积,apache-spark,hadoop,yarn,Apache Spark,Hadoop,Yarn,我们的hadoop集群中有长期运行的spark流媒体应用程序。问题是缓存目录的大小一直在增长,直到停止spark应用程序 目录:thread/local/usercache 现在,我们定期重新启动应用程序。不聪明的方式。。。 可以限制目录的大小吗 文件列表示例 -r-x------ 1 yarn hadoop 169M Sep 20 14:53 /data/hadoop/yarn/local/usercache/username/filecache/81/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 14:53 /data/hadoop/yarn/local/usercache/username/filecache/81/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 15:55 /data/hadoop/yarn/local/usercache/username/filecache/84/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 16:02 /data/hadoop/yarn/local/usercache/username/filecache/87/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 20 17:30 /data/hadoop/yarn/local/usercache/username/filecache/90/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 21 10:55 /data/hadoop/yarn/local/usercache/username/filecache/93/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 21 11:01 /data/hadoop/yarn/local/usercache/username/filecache/96/appname-SNAPSHOT.jar
-r-x------ 1 yarn hadoop 169M Sep 21 12:14 /data/hadoop/yarn/local/usercache/username/filecache/99/appname-SNAPSHOT.jar
您需要添加更多信息,例如,spark版本,是否使用结构化流媒体,是否执行状态聚合,状态/缓存等的逐出标准是什么基本上我们使用hdp 2.6.4。它包括hdfs 2.7.3、纱线+mr 2.7.3、Spark2 2.2.0。我们使用的结构化流媒体使用kafka 0.11.0.2.Yes逻辑具有状态聚合。更具体地说,其中一个大文件是thread/local/usercache/our_user/filecache/150/our_application.jar