Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用hadoop处理非常小的文件_Hadoop - Fatal编程技术网

用hadoop处理非常小的文件

用hadoop处理非常小的文件,hadoop,Hadoop,我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000条记录,但我希望这些记录大致均匀地分布在节点之间。有办法做到这一点吗?我是hadoop新手,到目前为止,似乎所有的执行都是在一个节点上进行的,而不是同时在多个节点上进行的。让我知道我的问题是否有意义,或者我是否需要澄清任何事情。正如我所说,我对Hadoop非常陌生,但我希望得到一些澄清。谢谢。使用并指定每个映射程序要处理的记录数。这样,单个块中的记录将由多个映射器处理。另一个选项是将一个输入文件拆分为多个输入文件(在一个输入路

我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000条记录,但我希望这些记录大致均匀地分布在节点之间。有办法做到这一点吗?我是hadoop新手,到目前为止,似乎所有的执行都是在一个节点上进行的,而不是同时在多个节点上进行的。让我知道我的问题是否有意义,或者我是否需要澄清任何事情。正如我所说,我对Hadoop非常陌生,但我希望得到一些澄清。谢谢。

使用并指定每个映射程序要处理的记录数。这样,单个块中的记录将由多个映射器处理。

另一个选项是将一个输入文件拆分为多个输入文件(在一个输入路径目录中)。 然后,这些输入文件中的每一个都将能够分布在hdfs和地图上
操作将在拥有这些输入拆分的工作计算机上进行。

谢谢Praveen,所以使用NLineInputFormat会覆盖为mapred.max.split.size和dfs.block.size设置的值吗?我认为它不会考虑mapred.max.split.size和dfs.block.size。请检查代码以了解更多详细信息。