Hadoop输入拆分和记录读取器

Hadoop输入拆分和记录读取器,hadoop,Hadoop,请阅读apache文档: InputSplit表示要由单个映射器处理的数据 通常,它在输入上显示一个面向字节的视图,作业的RecordReader负责处理该视图并显示一个面向记录的视图 链接- 有人能解释面向字节的视图和面向记录的视图之间的区别吗?HDFS拆分其块(面向字节的视图),使每个块小于或等于配置的块大小。因此,它被认为没有遵循逻辑分割。表示最后一条记录的一部分可能位于一个块中,其余部分位于另一个块中。这似乎适用于存储。但在处理时,块中的部分记录无法按原样处理。因此,面向记录的视图应运而

请阅读apache文档:

InputSplit表示要由单个映射器处理的数据

通常,它在输入上显示一个面向字节的视图,作业的RecordReader负责处理该视图并显示一个面向记录的视图

链接-

有人能解释面向字节的视图和面向记录的视图之间的区别吗?

HDFS拆分其块(面向字节的视图),使每个块小于或等于配置的块大小。因此,它被认为没有遵循逻辑分割。表示最后一条记录的一部分可能位于一个块中,其余部分位于另一个块中。这似乎适用于存储。但在处理时,块中的部分记录无法按原样处理。因此,面向记录的视图应运而生。这将确保获得另一个块中最后一条记录的剩余部分,使其成为完整记录块。这称为输入拆分(面向记录的视图)