用hadoop处理非常小的文件
我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000条记录,但我希望这些记录大致均匀地分布在节点之间。有办法做到这一点吗?我是hadoop新手,到目前为止,似乎所有的执行都是在一个节点上进行的,而不是同时在多个节点上进行的。让我知道我的问题是否有意义,或者我是否需要澄清任何事情。正如我所说,我对Hadoop非常陌生,但我希望得到一些澄清。谢谢。使用并指定每个映射程序要处理的记录数。这样,单个块中的记录将由多个映射器处理。另一个选项是将一个输入文件拆分为多个输入文件(在一个输入路径目录中)。 然后,这些输入文件中的每一个都将能够分布在hdfs和地图上用hadoop处理非常小的文件,hadoop,Hadoop,我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000条记录,但我希望这些记录大致均匀地分布在节点之间。有办法做到这一点吗?我是hadoop新手,到目前为止,似乎所有的执行都是在一个节点上进行的,而不是同时在多个节点上进行的。让我知道我的问题是否有意义,或者我是否需要澄清任何事情。正如我所说,我对Hadoop非常陌生,但我希望得到一些澄清。谢谢。使用并指定每个映射程序要处理的记录数。这样,单个块中的记录将由多个映射器处理。另一个选项是将一个输入文件拆分为多个输入文件(在一个输入路
操作将在拥有这些输入拆分的工作计算机上进行。谢谢Praveen,所以使用NLineInputFormat会覆盖为mapred.max.split.size和dfs.block.size设置的值吗?我认为它不会考虑mapred.max.split.size和dfs.block.size。请检查代码以了解更多详细信息。