Hadoop 将新文件加载到DistributedCache
我有一个理论案例。我有一个文件加载到DistributedCache。然后我运行mapreduce程序 完成作业后,我想更新我的文件。Hadoop 将新文件加载到DistributedCache,hadoop,Hadoop,我有一个理论案例。我有一个文件加载到DistributedCache。然后我运行mapreduce程序 完成作业后,我想更新我的文件。 当我使用相同的参数运行程序时,DistributedCache会自动下载文件的新版本吗 是,当重新提交作业时,分布式缓存文件也应得到更新。 使用分布式缓存文件(例如使用-file选项)提交作业后,任务跟踪器将文件复制到其本地磁盘。此文件现在可供映射程序使用。 因此,重新提交作业时,任务跟踪器应将文件再次复制到本地磁盘。因此,当它这样做时,它会将更新后的文件发送到
当我使用相同的参数运行程序时,DistributedCache会自动下载文件的新版本吗 是,当重新提交作业时,分布式缓存文件也应得到更新。 使用分布式缓存文件(例如使用-file选项)提交作业后,任务跟踪器将文件复制到其本地磁盘。此文件现在可供映射程序使用。 因此,重新提交作业时,任务跟踪器应将文件再次复制到本地磁盘。因此,当它这样做时,它会将更新后的文件发送到Task Tracker的本地文件系统 还要注意,TaskTracker为缓存中的每个文件维护一个引用计数。作业完成且计数变为零后,文件超过local.cache.size后将有资格删除