将多个目录的文件组合为Hadoop输入
有两个文件夹A和B,每个文件夹有n个文档。我想处理A和B中的每个文件对组合,即(A0,B0),(A0,B1),(A1,B0),(A1,B1)。。。(An,B0),(安,Bn)将多个目录的文件组合为Hadoop输入,hadoop,Hadoop,有两个文件夹A和B,每个文件夹有n个文档。我想处理A和B中的每个文件对组合,即(A0,B0),(A0,B1),(A1,B0),(A1,B1)。。。(An,B0),(安,Bn) 是否有机会为该作业编写派生(文件)输入格式?还是将一个文档集合作为辅助数据共享(使用静态列表)并仅处理另一个集合作为输入数据更好?在我看来,您试图实现的是交叉连接。从版本0.10起,Hive已经支持交叉联接,因此您可能需要使用它。感谢您的回复。由于我们还没有在集群上构建配置单元基础设施,我通过预先创建一个组合文件,将其解析
是否有机会为该作业编写派生(文件)输入格式?还是将一个文档集合作为辅助数据共享(使用静态列表)并仅处理另一个集合作为输入数据更好?在我看来,您试图实现的是交叉连接。从版本0.10起,Hive已经支持交叉联接,因此您可能需要使用它。感谢您的回复。由于我们还没有在集群上构建配置单元基础设施,我通过预先创建一个组合文件,将其解析为Hadoop输入并在映射中打开文件来解决问题。可能不是很微妙,但它是有效的。。。