仅为Hadoop作业输出关闭复制
是否有方法将特定MapReduce作业的输出的复制因子设置为与集群的其余部分不同(例如1)?我希望我的主数据集是3个副本(目前是这样),但我的一些作业的输出很快移出集群,最终被丢弃,因此不需要复制,我可以使用空间仅为Hadoop作业输出关闭复制,hadoop,Hadoop,是否有方法将特定MapReduce作业的输出的复制因子设置为与集群的其余部分不同(例如1)?我希望我的主数据集是3个副本(目前是这样),但我的一些作业的输出很快移出集群,最终被丢弃,因此不需要复制,我可以使用空间 我可以使用,但我想我只能在事后使用。上传文件时,可以通过传递 -D dfs.replication=1 当您调用作业时传递该消息时,它也应该可以工作
我可以使用,但我想我只能在事后使用。上传文件时,可以通过传递
-D dfs.replication=1
当您调用作业时传递该消息时,它也应该可以工作