将多个目录的文件组合为Hadoop输入_Hadoop

将多个目录的文件组合为Hadoop输入

hadoop

将多个目录的文件组合为Hadoop输入,hadoop,Hadoop,有两个文件夹A和B，每个文件夹有n个文档。我想处理A和B中的每个文件对组合，即（A0，B0），（A0，B1），（A1，B0），（A1，B1）。。。（An，B0），（安，Bn）是否有机会为该作业编写派生（文件）输入格式？还是将一个文档集合作为辅助数据共享（使用静态列表）并仅处理另一个集合作为输入数据更好？在我看来，您试图实现的是交叉连接。从版本0.10起，Hive已经支持交叉联接，因此您可能需要使用它。感谢您的回复。由于我们还没有在集群上构建配置单元基础设施，我通过预先创建一个组合文件，将其解析

有两个文件夹A和B，每个文件夹有n个文档。我想处理A和B中的每个文件对组合，即（A0，B0），（A0，B1），（A1，B0），（A1，B1）。。。（An，B0），（安，Bn）

是否有机会为该作业编写派生（文件）输入格式？还是将一个文档集合作为辅助数据共享（使用静态列表）并仅处理另一个集合作为输入数据更好？

在我看来，您试图实现的是交叉连接。从版本0.10起，Hive已经支持交叉联接，因此您可能需要使用它。

感谢您的回复。由于我们还没有在集群上构建配置单元基础设施，我通过预先创建一个组合文件，将其解析为Hadoop输入并在映射中打开文件来解决问题。可能不是很微妙，但它是有效的。。。