Hadoop 使用MRJob获取字节偏移量

Hadoop 使用MRJob获取字节偏移量,hadoop,streaming,mapreduce,Hadoop,Streaming,Mapreduce,根据“Hadoop的权威指南”,输入格式TextInputFormat提供键值对(k,v)=(字节偏移量,行)。但是,在MRJob中,映射器输入中的键始终为None。获取字节偏移量作为键应该很容易,因为TextInputFormat就是这样做的。我怎么得到这个 我知道您可以使用环境变量“map\u input\u start”自己计算字节偏移量,但这导致了一些问题,我想用更简单的方法来实现,只将偏移量作为键。在mapper类中使用以下签名定义map方法,不会将字节偏移量作为键 public vo

根据“Hadoop的权威指南”,输入格式
TextInputFormat
提供键值对
(k,v)=(字节偏移量,行)
。但是,在MRJob中,映射器输入中的键始终为
None
。获取字节偏移量作为键应该很容易,因为TextInputFormat就是这样做的。我怎么得到这个


我知道您可以使用环境变量“map\u input\u start”自己计算字节偏移量,但这导致了一些问题,我想用更简单的方法来实现,只将偏移量作为键。

在mapper类中使用以下签名定义map方法,不会将字节偏移量作为键

public void map(LongWritable key,Text value,OutputCollector<>,Reporter) 
公共void映射(可长写键、文本值、OutputCollector、Reporter)

TextInputFormat是一个Java类。。。在流媒体世界中,我看不出这会起什么作用

MRJob是一个使用Hadoop流的python库。我希望不要弄乱Java代码