在hadoop中同步多个map reduce作业
我有一个可以同时运行多个作业的用例。所有作业的输出必须与HDFS(包含键值对)中没有重复项的公共主文件合并。我不知道如何避免这种情况下可能出现的比赛情况。例如,作业1和作业2同时向主文件写入相同的值,导致重复。感谢您的帮助。Apache Hadoop不支持对同一文件进行并行写入。这是你的电话号码 HDFS中的文件只写一次,并且在任何时候都有一个编写器在hadoop中同步多个map reduce作业,map,hadoop,reduce,synchronize,Map,Hadoop,Reduce,Synchronize,我有一个可以同时运行多个作业的用例。所有作业的输出必须与HDFS(包含键值对)中没有重复项的公共主文件合并。我不知道如何避免这种情况下可能出现的比赛情况。例如,作业1和作业2同时向主文件写入相同的值,导致重复。感谢您的帮助。Apache Hadoop不支持对同一文件进行并行写入。这是你的电话号码 HDFS中的文件只写一次,并且在任何时候都有一个编写器 因此,多个贴图/作业不能同时写入同一个文件。必须编写另一个作业/shell或任何其他程序来合并多个作业的输出。Praveen,我正在考虑使用app
因此,多个贴图/作业不能同时写入同一个文件。必须编写另一个作业/shell或任何其他程序来合并多个作业的输出。Praveen,我正在考虑使用append功能。让我知道你对此的想法。