Hadoop中分布式缓存的生命周期

Hadoop中分布式缓存的生命周期,hadoop,amazon-web-services,elastic-map-reduce,Hadoop,Amazon Web Services,Elastic Map Reduce,在Hadoop流作业中使用分布式缓存机制将文件传输到节点时,系统是否会在作业完成后删除这些文件?如果它们被删除(我认为是这样),有没有办法让缓存保留多个作业?在Amazon的Elastic Mapreduce上也是这样吗?我在翻源代码,当引用计数降至零时,TrackerDistributed CacheManager大约每分钟删除一次文件。TaskRunner在任务结束时显式释放其所有文件。也许您应该编辑TaskRunner以避免这样做,并通过更明确的方式自己控制缓存?我得到了一个很好的建议,使

在Hadoop流作业中使用分布式缓存机制将文件传输到节点时,系统是否会在作业完成后删除这些文件?如果它们被删除(我认为是这样),有没有办法让缓存保留多个作业?在Amazon的Elastic Mapreduce上也是这样吗?

我在翻源代码,当引用计数降至零时,TrackerDistributed CacheManager大约每分钟删除一次文件。
TaskRunner
在任务结束时显式释放其所有文件。也许您应该编辑
TaskRunner
以避免这样做,并通过更明确的方式自己控制缓存?

我得到了一个很好的建议,使用
hadoop fs-get
以跨作业持久的方式传输文件

这是一个巨大的帮助。我想可能还有其他方法可以将文件加载到我将要探讨的节点上。分布式缓存正是我熟悉的方法。谢谢代码参考,这非常有用。