Java 限制hadoop中不带减速机的多路输出中的映射器数量_Java_Hadoop_Mapreduce_Hadoop2

Java 限制hadoop中不带减速机的多路输出中的映射器数量

java hadoop mapreduce

Java 限制hadoop中不带减速机的多路输出中的映射器数量,java,hadoop,mapreduce,hadoop2,Java,Hadoop,Mapreduce,Hadoop2,您好，我有一个从HBase读取记录并写入文本文件的应用程序HBase表有200个区域。我在mapper类中使用multipleoutput写入多个文件，并根据传入的记录生成文件名我正在制作40个独特的文件名。我能够正确地获取记录，但我的问题是，当mapreduce完成时，它会创建40个文件，以及2k个附加了正确名称的额外文件用m-000等等这是因为我有200个区域和多个输出为每个映射器创建文件，所以每个映射器有200个映射器，每个映射器有40个唯一的文件，所以它创建了40*200个文件

您好，我有一个从HBase读取记录并写入文本文件的应用程序HBase表有200个区域。我在mapper类中使用multipleoutput写入多个文件，并根据传入的记录生成文件名

我正在制作40个独特的文件名。我能够正确地获取记录，但我的问题是，当mapreduce完成时，它会创建40个文件，以及2k个附加了正确名称的额外文件用m-000等等

这是因为我有200个区域和多个输出为每个映射器创建文件，所以每个映射器有200个映射器，每个映射器有40个唯一的文件，所以它创建了40*200个文件

如果没有自定义分区器，我不知道如何避免这种情况

是否有任何方法可以强制将记录写入所属的文件，而不是拆分为多个文件

我使用了自定义分区器类，它工作正常，但我不想使用它，因为我只是从HBase读取数据，而没有执行reducer操作。此外，如果需要创建任何额外的文件名，那么我也必须更改代码

这是我的映射程序代码

   public class DefaultMapper extends TableMapper<NullWritable, Text> {
        private Text text = new Text();
        MultipleOutputs<NullWritable, Text> multipleOutputs;
        String strName = "";

        @Override()
        public void setup(Context context) throws java.io.IOException, java.lang.InterruptedException {
            multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
        }
String FILE_NAME = new String(value.getValue(Bytes.toBytes(HbaseBulkLoadMapperConstants.COLUMN_FAMILY),Bytes.toBytes(HbaseBulkLoadMapperConstants.FILE_NAME)));

        multipleOutputs.write(NullWritable.get(), new Text(text.toString()),FILE_NAME);
        //context.write(NullWritable.get(), text);
    }

我也遇到了同样的情况，并提出了解决办法

MultipleOutputs multipleOutputs = null;

String keyToFind = new String();

    public void setup(Context context) throws IOException, InterruptedException
    {
        this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
    }

public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{

   String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/

    if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
    {
        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
    } 
    else 
    {
        this.multipleOutputs.close();
        this.multipleOutputs = null;
        this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);

        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);

    }

    keyToFind=valToFindInCol[2];
}

MultipleOutputs MultipleOutputs=null；
String keyToFind=新字符串（）；
公共无效设置（上下文上下文）引发IOException、InterruptedException
{
this.multipleoutput_normal=新的multipleoutput（上下文）；
}
公共void映射（NullWritable键、文本值、上下文上下文）引发IOException、InterruptedException
{
字符串valToFindInCol[]=values.toString.split（“，”）；/**用逗号分隔**/
如果（keyToFind.equals（valToFindInCol[2].toString（））| | keyToFind==null）/**表示需要匹配2个位置元素**/
{
this.multipleOutputs.write（NullWritable.get（），valToFindInCol[2]）；
} 
其他的
{
这个.multipleOutputs.close（）；
this.multipleOutputs=null；
this.multipleoutput=新的multipleoutput（上下文）；
this.multipleOutputs.write（NullWritable.get（），valToFindInCol[2]）；
}
keyToFind=valToFindInCol[2]；
}

我没有得到你的解决方案。为什么会出现这个问题？我正在正确地关闭它，那么为什么这个问题会出现在一个分区中，因为它正在创建198个文件。我有200个映射器，所以每个映射器可能有一个文件。我的键中有文件名，行中有值，所以每当我们获得新文件名时，我正在关闭旧文件并创建一个指定名称的新输出文件。您的记录（对于一个确定的密钥）是如何分散在多个或单个文件中的？我有空可写密钥，记录中的一列是我的文件名。我将有40个唯一的文件名。请查找我的更新答案，并告诉我是否有帮助。

MultipleOutputs multipleOutputs = null;

String keyToFind = new String();

    public void setup(Context context) throws IOException, InterruptedException
    {
        this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
    }

public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{

   String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/

    if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
    {
        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
    } 
    else 
    {
        this.multipleOutputs.close();
        this.multipleOutputs = null;
        this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);

        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);

    }

    keyToFind=valToFindInCol[2];
}