Java 如何从Hadoop中的映射程序中输出具有列表等数据结构的自定义类_Java_Hadoop_Mapreduce

Java 如何从Hadoop中的映射程序中输出具有列表等数据结构的自定义类

java hadoop mapreduce

Java 如何从Hadoop中的映射程序中输出具有列表等数据结构的自定义类,java,hadoop,mapreduce,Java,Hadoop,Mapreduce,我是Hadoop和Map Reduce编程新手。我有一个数据集，其中包含943个用户对电影的评分。每个用户最多可以观看20部电影。现在，我希望映射器的输出是用户Id和一个自定义类，该类将有两个电影列表（用户分级的电影Id）和分级（每部电影的分级）。但我不确定在这种情况下如何从Map方法输出这些值。下面是代码片段：- public class UserRatings implements WritableComparable{ private List<String> movieId;

我是Hadoop和Map Reduce编程新手。我有一个数据集，其中包含943个用户对电影的评分。每个用户最多可以观看20部电影。现在，我希望映射器的输出是用户Id和一个自定义类，该类将有两个电影列表（用户分级的电影Id）和分级（每部电影的分级）。但我不确定在这种情况下如何从Map方法输出这些值。下面是代码片段：-

public class UserRatings implements WritableComparable{
private List<String> movieId;
private List<String> movieRatings;
public List<String> getMovieRatings() {
    return movieRatings;
}

public void setMovieRatings(List<String> movieRatings) {
    this.movieRatings = movieRatings;
}

public List<String> getMovieId() {
    return movieId;
}

public void setMovieId(List<String> movieId) {
    this.movieId = movieId;
}

@Override
public int compareTo(Object o) {
    return 0;
}

@Override
public void write(DataOutput dataOutput) throws IOException {
    dataOutput.write
}

@Override
public void readFields(DataInput dataInput) throws IOException {

}

public类UserRatings实现可写性{
私人名单电影ID；
私人名单电影；
公共列表getMovieRatings（）{
返回电影；
}
公共无效设置移动地址（列表移动地址）{
this.movieRatings=movieRatings；
}
公共列表getMovieId（）{
返回电影ID；
}
public void setMovieId（列出movieId）{
this.movieId=movieId；
}
@凌驾
公共整数比较对象（对象o）{
返回0；
}
@凌驾
公共无效写入（DataOutput DataOutput）引发IOException{
dataOutput.write
}
@凌驾
公共void读取字段（DataInput DataInput）引发IOException{
}

}

这里是Map方法

public class GenreMapper extends Mapper<LongWritable,Text,Text,IntWritable> {

public void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException{
   // Logic for parsing the file and exracting the data. Can be ignored...
    String[] input = value.toString().split("\t");
    Map<String,UserRatings> mapData = new HashMap<String,UserRatings>();
    for(int i=0;i<input.length;i++){
        List<String> tempList = new ArrayList<String>();
        UserRatings userRatings = new UserRatings();
        tempList.add(input[3]);
        List<String> tempMovieId = new ArrayList<String>();
        tempMovieId.add(input[1]);
        for(int j=4;j<input.length;j++){
            if(input[i].contentEquals(input[j])){
                   tempMovieId.add(input[j+1]);
                   tempList.add(input[j+3]);
                    j = j+4;
            }

        }
        userRatings.setMovieId(tempMovieId);
        userRatings.setMovieRatings(tempList);
        mapData.put(input[i],userRatings);
    }
   // context.write();

}

公共类GenreMapper扩展映射器{
公共void映射（LongWritable键、文本值、上下文上下文）引发IOException、InterruptedException{
//用于分析文件和提取数据的逻辑。可以忽略。。。
字符串[]输入=value.toString（）.split（“\t”）；
Map mapData=new HashMap（）；
对于（int i＝0；i），可以考虑使用和作为映射器类的键值对。
在这里，用户id将是键（文本），由电影id和用户评级组成的可映射文件将是值对象
Mapwritable值对象应该以MovieId为键，用户评级为值
考虑这个示例代码片段
MapWritable result=new MapWritable();
result.put(new Text("movie1") , new Text("user1_movie1_rating"));
result.put(new Text("movie2") , new Text("user1_movie2_rating"));

Text key = new Text("user_1_id");

context.write(key, result);

希望这有帮助：）..
我认为您缺少映射器函数的要点。映射器不应在其输出上发出列表。映射器的关键点是生成一个元组，还原器将捕获该元组，并对该键进行必要的计算以生成良好的输出，因此映射器的输出格式应尽可能简单
在这种情况下，我认为正确的方法是在映射器上发出一个键值对：
用户id，自定义类
自定义类必须只有电影id和分级，而不是列表。更具体地说，我需要知道您希望此map reduce cicle的最终结果是什么。请注意，如果需要，可以在第一个map reduce的结果上运行第二个map reduce