将两个不同Hadoop作业的输出写入同一组减缩器

将两个不同Hadoop作业的输出写入同一组减缩器,hadoop,n-gram,Hadoop,N Gram,我有一个场景,我需要运行两个Hadoop作业,计算两个不同语料库的n-gram统计数据,并确保它们将每个n-gram(及其分数)写入同一个减缩器(以便将来我可以在本地读取数据,并比较和对比两个语料库中的两个分数)。例如,如果jobJ1在机器M上执行其一个减速机,并在本地写入n-gramn,我希望jobJ2也将n-gramn写入同一机器M 我知道如何计算一个语料库的n-gram统计数据(作为参考,可以参考Google的Publication)。我还定义了我的自定义分区器(根据n-gram中的前两个

我有一个场景,我需要运行两个
Hadoop
作业,计算两个不同语料库的
n-gram
统计数据,并确保它们将每个n-gram(及其分数)写入同一个减缩器(以便将来我可以在本地读取数据,并比较和对比两个语料库中的两个分数)。例如,如果job
J1
在机器
M
上执行其一个减速机,并在本地写入n-gram
n
,我希望job
J2
也将n-gram
n
写入同一机器
M

我知道如何计算一个语料库的n-gram统计数据(作为参考,可以参考Google的Publication)。我还定义了我的自定义分区器(根据n-gram中的前两个单词使用哈希)。现在,我如何确保同一程序的两次不同运行(在两个不同的语料库上)最终将相应的输出写入相同的还原器?

请检查。通过将两个同级映射器指向同级数据集,可以避免在缩减之前在组合集上运行ID映射