将两个不同Hadoop作业的输出写入同一组减缩器_Hadoop_N Gram

将两个不同Hadoop作业的输出写入同一组减缩器

hadoop

将两个不同Hadoop作业的输出写入同一组减缩器,hadoop,n-gram,Hadoop,N Gram,我有一个场景，我需要运行两个Hadoop作业，计算两个不同语料库的n-gram统计数据，并确保它们将每个n-gram（及其分数）写入同一个减缩器（以便将来我可以在本地读取数据，并比较和对比两个语料库中的两个分数）。例如，如果jobJ1在机器M上执行其一个减速机，并在本地写入n-gramn，我希望jobJ2也将n-gramn写入同一机器M 我知道如何计算一个语料库的n-gram统计数据（作为参考，可以参考Google的Publication）。我还定义了我的自定义分区器（根据n-gram中的前两个

我有一个场景，我需要运行两个

Hadoop

作业，计算两个不同语料库的

n-gram

统计数据，并确保它们将每个n-gram（及其分数）写入同一个减缩器（以便将来我可以在本地读取数据，并比较和对比两个语料库中的两个分数）。例如，如果job

J1

在机器

上执行其一个减速机，并在本地写入n-gram

，我希望job

J2

也将n-gram

写入同一机器

我知道如何计算一个语料库的n-gram统计数据（作为参考，可以参考Google的Publication）。我还定义了我的自定义分区器（根据n-gram中的前两个单词使用哈希）。现在，我如何确保同一程序的两次不同运行（在两个不同的语料库上）最终将相应的输出写入相同的还原器？

请检查。通过将两个同级映射器指向同级数据集，可以避免在缩减之前在组合集上运行ID映射