Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将多个目录的文件组合为Hadoop输入_Hadoop - Fatal编程技术网

将多个目录的文件组合为Hadoop输入

将多个目录的文件组合为Hadoop输入,hadoop,Hadoop,有两个文件夹A和B,每个文件夹有n个文档。我想处理A和B中的每个文件对组合,即(A0,B0),(A0,B1),(A1,B0),(A1,B1)。。。(An,B0),(安,Bn) 是否有机会为该作业编写派生(文件)输入格式?还是将一个文档集合作为辅助数据共享(使用静态列表)并仅处理另一个集合作为输入数据更好?在我看来,您试图实现的是交叉连接。从版本0.10起,Hive已经支持交叉联接,因此您可能需要使用它。感谢您的回复。由于我们还没有在集群上构建配置单元基础设施,我通过预先创建一个组合文件,将其解析

有两个文件夹A和B,每个文件夹有n个文档。我想处理A和B中的每个文件对组合,即(A0,B0),(A0,B1),(A1,B0),(A1,B1)。。。(An,B0),(安,Bn)


是否有机会为该作业编写派生(文件)输入格式?还是将一个文档集合作为辅助数据共享(使用静态列表)并仅处理另一个集合作为输入数据更好?

在我看来,您试图实现的是交叉连接。从版本0.10起,Hive已经支持交叉联接,因此您可能需要使用它。

感谢您的回复。由于我们还没有在集群上构建配置单元基础设施,我通过预先创建一个组合文件,将其解析为Hadoop输入并在映射中打开文件来解决问题。可能不是很微妙,但它是有效的。。。