Java 限制hadoop中不带减速机的多路输出中的映射器数量
您好,我有一个从HBase读取记录并写入文本文件的应用程序HBase表有200个区域。 我在mapper类中使用multipleoutput写入多个文件,并根据传入的记录生成文件名 我正在制作40个独特的文件名。 我能够正确地获取记录,但我的问题是,当mapreduce完成时,它会创建40个文件,以及2k个附加了正确名称的额外文件 用m-000等等 这是因为我有200个区域和多个输出为每个映射器创建文件,所以每个映射器有200个映射器,每个映射器有40个唯一的文件,所以它创建了40*200个文件 如果没有自定义分区器,我不知道如何避免这种情况 是否有任何方法可以强制将记录写入所属的文件,而不是拆分为多个文件 我使用了自定义分区器类,它工作正常,但我不想使用它,因为我只是从HBase读取数据,而没有执行reducer操作。此外,如果需要创建任何额外的文件名,那么我也必须更改代码 这是我的映射程序代码Java 限制hadoop中不带减速机的多路输出中的映射器数量,java,hadoop,mapreduce,hadoop2,Java,Hadoop,Mapreduce,Hadoop2,您好,我有一个从HBase读取记录并写入文本文件的应用程序HBase表有200个区域。 我在mapper类中使用multipleoutput写入多个文件,并根据传入的记录生成文件名 我正在制作40个独特的文件名。 我能够正确地获取记录,但我的问题是,当mapreduce完成时,它会创建40个文件,以及2k个附加了正确名称的额外文件 用m-000等等 这是因为我有200个区域和多个输出为每个映射器创建文件,所以每个映射器有200个映射器,每个映射器有40个唯一的文件,所以它创建了40*200个文件
public class DefaultMapper extends TableMapper<NullWritable, Text> {
private Text text = new Text();
MultipleOutputs<NullWritable, Text> multipleOutputs;
String strName = "";
@Override()
public void setup(Context context) throws java.io.IOException, java.lang.InterruptedException {
multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
}
String FILE_NAME = new String(value.getValue(Bytes.toBytes(HbaseBulkLoadMapperConstants.COLUMN_FAMILY),Bytes.toBytes(HbaseBulkLoadMapperConstants.FILE_NAME)));
multipleOutputs.write(NullWritable.get(), new Text(text.toString()),FILE_NAME);
//context.write(NullWritable.get(), text);
}
我也遇到了同样的情况,并提出了解决办法
MultipleOutputs multipleOutputs = null;
String keyToFind = new String();
public void setup(Context context) throws IOException, InterruptedException
{
this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
}
public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{
String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/
if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
{
this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
}
else
{
this.multipleOutputs.close();
this.multipleOutputs = null;
this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
}
keyToFind=valToFindInCol[2];
}
MultipleOutputs MultipleOutputs=null;
String keyToFind=新字符串();
公共无效设置(上下文上下文)引发IOException、InterruptedException
{
this.multipleoutput_normal=新的multipleoutput(上下文);
}
公共void映射(NullWritable键、文本值、上下文上下文)引发IOException、InterruptedException
{
字符串valToFindInCol[]=values.toString.split(“,”);/**用逗号分隔**/
如果(keyToFind.equals(valToFindInCol[2].toString())| | keyToFind==null)/**表示需要匹配2个位置元素**/
{
this.multipleOutputs.write(NullWritable.get(),valToFindInCol[2]);
}
其他的
{
这个.multipleOutputs.close();
this.multipleOutputs=null;
this.multipleoutput=新的multipleoutput(上下文);
this.multipleOutputs.write(NullWritable.get(),valToFindInCol[2]);
}
keyToFind=valToFindInCol[2];
}
我没有得到你的解决方案。为什么会出现这个问题?我正在正确地关闭它,那么为什么这个问题会出现在一个分区中,因为它正在创建198个文件。我有200个映射器,所以每个映射器可能有一个文件。我的键中有文件名,行中有值,所以每当我们获得新文件名时,我正在关闭旧文件并创建一个指定名称的新输出文件。您的记录(对于一个确定的密钥)是如何分散在多个或单个文件中的?我有空可写密钥,记录中的一列是我的文件名。我将有40个唯一的文件名。请查找我的更新答案,并告诉我是否有帮助。
MultipleOutputs multipleOutputs = null;
String keyToFind = new String();
public void setup(Context context) throws IOException, InterruptedException
{
this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
}
public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{
String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/
if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
{
this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
}
else
{
this.multipleOutputs.close();
this.multipleOutputs = null;
this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
}
keyToFind=valToFindInCol[2];
}