向MapReduce中的映射器提供输入

向MapReduce中的映射器提供输入,mapreduce,Mapreduce,我刚才正在查看MapReduce中的单词计数示例。map函数非常简单。是否有更高级别的函数决定文件的哪个部分转到哪个映射器? 假设您依赖于一个依赖于整个文件输入的函数(如SHA1),是否有任何方法告诉框架不要分割文件?您可以在Hadoop中编写自定义InputSplit和RecordReader。您可以对这些方法进行编程,以告诉框架以您想要的方式拆分输入文件 请检查:您可以在Hadoop中编写自定义InputSplit和RecordReader。您可以对这些方法进行编程,以告诉框架以您想要的方式

我刚才正在查看MapReduce中的单词计数示例。map函数非常简单。是否有更高级别的函数决定文件的哪个部分转到哪个映射器?
假设您依赖于一个依赖于整个文件输入的函数(如SHA1),是否有任何方法告诉框架不要分割文件?

您可以在Hadoop中编写自定义InputSplit和RecordReader。您可以对这些方法进行编程,以告诉框架以您想要的方式拆分输入文件


请检查:

您可以在Hadoop中编写自定义InputSplit和RecordReader。您可以对这些方法进行编程,以告诉框架以您想要的方式拆分输入文件

请查收:

是否有更高级别的函数决定文件的哪个部分转到哪个映射器

当节点上的映射槽空闲时,调度器会选择离节点最近的分割,以尽可能避免数据传输。如果未处理的输入拆分与空闲映射插槽位于同一节点上,则会处理该拆分,如果未处理,则会选择同一机架中的拆分,或者选择机架外的拆分

是否有人告诉框架不要分割文件

实施。然后,输入文件不会被拆分,而是每个贴图处理一个文件

import org.apache.hadoop.fs.*;
import org.apache.hadoop.mapred.TextInputFormat;
public class NonSplittableTextInputFormat extends TextInputFormat {
    @Override
    protected boolean isSplitable(FileSystem fs, Path file) {
        return false;
    }
}
是否有更高级别的函数决定文件的哪个部分转到哪个映射器

当节点上的映射槽空闲时,调度器会选择离节点最近的分割,以尽可能避免数据传输。如果未处理的输入拆分与空闲映射插槽位于同一节点上,则会处理该拆分,如果未处理,则会选择同一机架中的拆分,或者选择机架外的拆分

是否有人告诉框架不要分割文件

实施。然后,输入文件不会被拆分,而是每个贴图处理一个文件

import org.apache.hadoop.fs.*;
import org.apache.hadoop.mapred.TextInputFormat;
public class NonSplittableTextInputFormat extends TextInputFormat {
    @Override
    protected boolean isSplitable(FileSystem fs, Path file) {
        return false;
    }
}

检查我对不拆分输入文件的更好方法的响应。检查我对不拆分输入文件的更好方法的响应。