Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 限制hadoop中不带减速机的多路输出中的映射器数量_Java_Hadoop_Mapreduce_Hadoop2 - Fatal编程技术网

Java 限制hadoop中不带减速机的多路输出中的映射器数量

Java 限制hadoop中不带减速机的多路输出中的映射器数量,java,hadoop,mapreduce,hadoop2,Java,Hadoop,Mapreduce,Hadoop2,您好,我有一个从HBase读取记录并写入文本文件的应用程序HBase表有200个区域。 我在mapper类中使用multipleoutput写入多个文件,并根据传入的记录生成文件名 我正在制作40个独特的文件名。 我能够正确地获取记录,但我的问题是,当mapreduce完成时,它会创建40个文件,以及2k个附加了正确名称的额外文件 用m-000等等 这是因为我有200个区域和多个输出为每个映射器创建文件,所以每个映射器有200个映射器,每个映射器有40个唯一的文件,所以它创建了40*200个文件

您好,我有一个从HBase读取记录并写入文本文件的应用程序HBase表有200个区域。 我在mapper类中使用multipleoutput写入多个文件,并根据传入的记录生成文件名

我正在制作40个独特的文件名。 我能够正确地获取记录,但我的问题是,当mapreduce完成时,它会创建40个文件,以及2k个附加了正确名称的额外文件 用m-000等等

这是因为我有200个区域和多个输出为每个映射器创建文件,所以每个映射器有200个映射器,每个映射器有40个唯一的文件,所以它创建了40*200个文件

如果没有自定义分区器,我不知道如何避免这种情况

是否有任何方法可以强制将记录写入所属的文件,而不是拆分为多个文件

我使用了自定义分区器类,它工作正常,但我不想使用它,因为我只是从HBase读取数据,而没有执行reducer操作。此外,如果需要创建任何额外的文件名,那么我也必须更改代码

这是我的映射程序代码

   public class DefaultMapper extends TableMapper<NullWritable, Text> {
        private Text text = new Text();
        MultipleOutputs<NullWritable, Text> multipleOutputs;
        String strName = "";

        @Override()
        public void setup(Context context) throws java.io.IOException, java.lang.InterruptedException {
            multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
        }
String FILE_NAME = new String(value.getValue(Bytes.toBytes(HbaseBulkLoadMapperConstants.COLUMN_FAMILY),Bytes.toBytes(HbaseBulkLoadMapperConstants.FILE_NAME)));

        multipleOutputs.write(NullWritable.get(), new Text(text.toString()),FILE_NAME);
        //context.write(NullWritable.get(), text);
    }

我也遇到了同样的情况,并提出了解决办法

MultipleOutputs multipleOutputs = null;

String keyToFind = new String();

    public void setup(Context context) throws IOException, InterruptedException
    {
        this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
    }

public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{

   String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/

    if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
    {
        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
    } 
    else 
    {
        this.multipleOutputs.close();
        this.multipleOutputs = null;
        this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);

        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);

    }

    keyToFind=valToFindInCol[2];
}
MultipleOutputs MultipleOutputs=null;
String keyToFind=新字符串();
公共无效设置(上下文上下文)引发IOException、InterruptedException
{
this.multipleoutput_normal=新的multipleoutput(上下文);
}
公共void映射(NullWritable键、文本值、上下文上下文)引发IOException、InterruptedException
{
字符串valToFindInCol[]=values.toString.split(“,”);/**用逗号分隔**/
如果(keyToFind.equals(valToFindInCol[2].toString())| | keyToFind==null)/**表示需要匹配2个位置元素**/
{
this.multipleOutputs.write(NullWritable.get(),valToFindInCol[2]);
} 
其他的
{
这个.multipleOutputs.close();
this.multipleOutputs=null;
this.multipleoutput=新的multipleoutput(上下文);
this.multipleOutputs.write(NullWritable.get(),valToFindInCol[2]);
}
keyToFind=valToFindInCol[2];
}

我没有得到你的解决方案。为什么会出现这个问题?我正在正确地关闭它,那么为什么这个问题会出现在一个分区中,因为它正在创建198个文件。我有200个映射器,所以每个映射器可能有一个文件。我的键中有文件名,行中有值,所以每当我们获得新文件名时,我正在关闭旧文件并创建一个指定名称的新输出文件。您的记录(对于一个确定的密钥)是如何分散在多个或单个文件中的?我有空可写密钥,记录中的一列是我的文件名。我将有40个唯一的文件名。请查找我的更新答案,并告诉我是否有帮助。
MultipleOutputs multipleOutputs = null;

String keyToFind = new String();

    public void setup(Context context) throws IOException, InterruptedException
    {
        this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
    }

public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{

   String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/

    if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
    {
        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
    } 
    else 
    {
        this.multipleOutputs.close();
        this.multipleOutputs = null;
        this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);

        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);

    }

    keyToFind=valToFindInCol[2];
}