Hadoop中分布式缓存的生命周期_Hadoop_Amazon Web Services_Elastic Map Reduce

Hadoop中分布式缓存的生命周期

hadoop amazon-web-services

Hadoop中分布式缓存的生命周期,hadoop,amazon-web-services,elastic-map-reduce,Hadoop,Amazon Web Services,Elastic Map Reduce,在Hadoop流作业中使用分布式缓存机制将文件传输到节点时，系统是否会在作业完成后删除这些文件？如果它们被删除（我认为是这样），有没有办法让缓存保留多个作业？在Amazon的Elastic Mapreduce上也是这样吗？我在翻源代码，当引用计数降至零时，TrackerDistributed CacheManager大约每分钟删除一次文件。TaskRunner在任务结束时显式释放其所有文件。也许您应该编辑TaskRunner以避免这样做，并通过更明确的方式自己控制缓存？我得到了一个很好的建议，使

在Hadoop流作业中使用分布式缓存机制将文件传输到节点时，系统是否会在作业完成后删除这些文件？如果它们被删除（我认为是这样），有没有办法让缓存保留多个作业？在Amazon的Elastic Mapreduce上也是这样吗？

我在翻源代码，当引用计数降至零时，TrackerDistributed CacheManager大约每分钟删除一次文件。

TaskRunner

在任务结束时显式释放其所有文件。也许您应该编辑

TaskRunner

以避免这样做，并通过更明确的方式自己控制缓存？

我得到了一个很好的建议，使用

hadoop fs-get

以跨作业持久的方式传输文件

这是一个巨大的帮助。我想可能还有其他方法可以将文件加载到我将要探讨的节点上。分布式缓存正是我熟悉的方法。谢谢代码参考，这非常有用。