Java hadoop中的任务分配_Java_Hadoop_Task

Java hadoop中的任务分配

java hadoop

Java hadoop中的任务分配,java,hadoop,task,Java,Hadoop,Task,我的目标是使用hadoop来分配任务，这是一个令人尴尬的并行问题，但计算代价很高每个任务通常是要在特定VM上执行的一系列相关字节码。其思想是并行运行此字节码，其中每个映射器将作为一个独立的VM运行。reduce阶段将用于通信和合并目的——始终通过VM。数据将使用分布式缓存在不同节点之间共享希望直到现在我都清楚了问题来了：我的MapReduce问题的输入是一个最大为1Mb的字节码文件，据我所知，Hadoop并不适合这样做为了保证负载平衡，我需要拆分（超小）文件。拆分不应具有相同的大小，但

我的目标是使用hadoop来分配任务，这是一个令人尴尬的并行问题，但计算代价很高

每个任务通常是要在特定VM上执行的一系列相关字节码。其思想是并行运行此字节码，其中每个映射器将作为一个独立的VM运行。reduce阶段将用于通信和合并目的——始终通过VM。数据将使用分布式缓存在不同节点之间共享

希望直到现在我都清楚了

问题来了：

我的MapReduce问题的输入是一个最大为1Mb的字节码文件，据我所知，Hadoop并不适合这样做

为了保证负载平衡，我需要拆分（超小）文件。拆分不应具有相同的大小，但应具有相同的复杂性

我的任务的复杂性来自于它正在处理的数据量，这可能是几GB的数量级

问题来了

hadoop（通常是MapReduce）是否可以配置为在这种情况下运行良好

是否可以将我们定义拆分的方式配置为更以工作负载为中心而不是以大小为中心

提前谢谢你们

亲切问候

您确定hadoop是一条发展之路吗？选择Map reduce执行模型是因为我们按顺序执行两个单独的步骤。我们第一次以独立的方式创建元组（类似于映射），然后在这些元素之间建立关系（类似于reduce）。老实说，我不太确定！我读的关于Hadoop的书越多，我对它的把握就越小。有比Map reduce更好的模型吗？