Hadoop 使用MRJob获取字节偏移量_Hadoop_Streaming_Mapreduce

Hadoop 使用MRJob获取字节偏移量

hadoop streaming mapreduce

Hadoop 使用MRJob获取字节偏移量,hadoop,streaming,mapreduce,Hadoop,Streaming,Mapreduce,根据“Hadoop的权威指南”，输入格式TextInputFormat提供键值对（k，v）=（字节偏移量，行）。但是，在MRJob中，映射器输入中的键始终为None。获取字节偏移量作为键应该很容易，因为TextInputFormat就是这样做的。我怎么得到这个我知道您可以使用环境变量“map\u input\u start”自己计算字节偏移量，但这导致了一些问题，我想用更简单的方法来实现，只将偏移量作为键。在mapper类中使用以下签名定义map方法，不会将字节偏移量作为键 public vo

根据“Hadoop的权威指南”，输入格式

TextInputFormat

提供键值对

（k，v）=（字节偏移量，行）

。但是，在MRJob中，映射器输入中的键始终为

None

。获取字节偏移量作为键应该很容易，因为TextInputFormat就是这样做的。我怎么得到这个

我知道您可以使用环境变量“map\u input\u start”自己计算字节偏移量，但这导致了一些问题，我想用更简单的方法来实现，只将偏移量作为键。

在mapper类中使用以下签名定义map方法，不会将字节偏移量作为键

public void map(LongWritable key,Text value,OutputCollector<>,Reporter)

公共void映射（可长写键、文本值、OutputCollector、Reporter）

TextInputFormat是一个Java类。。。在流媒体世界中，我看不出这会起什么作用

MRJob是一个使用Hadoop流的python库。我希望不要弄乱Java代码