用hadoop处理非常小的文件_Hadoop

用hadoop处理非常小的文件

hadoop

用hadoop处理非常小的文件,hadoop,Hadoop,我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000条记录，但我希望这些记录大致均匀地分布在节点之间。有办法做到这一点吗？我是hadoop新手，到目前为止，似乎所有的执行都是在一个节点上进行的，而不是同时在多个节点上进行的。让我知道我的问题是否有意义，或者我是否需要澄清任何事情。正如我所说，我对Hadoop非常陌生，但我希望得到一些澄清。谢谢。使用并指定每个映射程序要处理的记录数。这样，单个块中的记录将由多个映射器处理。另一个选项是将一个输入文件拆分为多个输入文件（在一个输入路

我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000条记录，但我希望这些记录大致均匀地分布在节点之间。有办法做到这一点吗？我是hadoop新手，到目前为止，似乎所有的执行都是在一个节点上进行的，而不是同时在多个节点上进行的。让我知道我的问题是否有意义，或者我是否需要澄清任何事情。正如我所说，我对Hadoop非常陌生，但我希望得到一些澄清。谢谢。

使用并指定每个映射程序要处理的记录数。这样，单个块中的记录将由多个映射器处理。

另一个选项是将一个输入文件拆分为多个输入文件（在一个输入路径目录中）。然后，这些输入文件中的每一个都将能够分布在hdfs和地图上

操作将在拥有这些输入拆分的工作计算机上进行。

谢谢Praveen，所以使用NLineInputFormat会覆盖为mapred.max.split.size和dfs.block.size设置的值吗？我认为它不会考虑mapred.max.split.size和dfs.block.size。请检查代码以了解更多详细信息。