Hadoop 使用pig高效合并2个已排序文件

Hadoop 使用pig高效合并2个已排序文件,hadoop,apache-pig,Hadoop,Apache Pig,我的HDFS 2数据集上有完全相同的结构,都是按相同的键排序的。我想把它们合并成一个按该键排序的大数据集 现在我知道pig有一个有效的合并连接(http://wiki.apache.org/pig/PigMergeJoin)它也有一个有效的合并排序吗?也许一个智能加载程序()可以使用“merge”和一个生成组从每个映射的索引和一个COGROUP创建正确的拆分,但仍然保持顺序 如果不是新的联合使用“merge”在这种情况下将是完美的 合并联接的输出将是单个排序列表。因此,您不需要单独排序。您所说的

我的HDFS 2数据集上有完全相同的结构,都是按相同的键排序的。我想把它们合并成一个按该键排序的大数据集

现在我知道pig有一个有效的合并连接(http://wiki.apache.org/pig/PigMergeJoin)它也有一个有效的合并排序吗?

也许一个智能加载程序()可以使用“merge”和一个
生成组
从每个映射的索引和一个
COGROUP创建正确的拆分,但仍然保持顺序


如果不是新的
联合使用“merge”
在这种情况下将是完美的

合并联接的输出将是单个排序列表。因此,您不需要单独排序。

您所说的“高效合并排序”是什么意思?你熟悉MapReduce还是只使用pig?托马斯:是的,我的意思是“只做地图边的工作”,但从你评论的语气中,我感觉到我遗漏了一些基本的东西:)……啊:)只做地图边永远不会被排序;)托马斯:哎呀,伙计。。所以你的意思是,无论数据集是否预先排序,都需要相同的时间?是的。数据集将在reduce阶段前面的排序之前被洗牌。