Hadoop输入拆分和记录读取器_Hadoop

Hadoop输入拆分和记录读取器

hadoop

Hadoop输入拆分和记录读取器,hadoop,Hadoop,请阅读apache文档： InputSplit表示要由单个映射器处理的数据通常，它在输入上显示一个面向字节的视图，作业的RecordReader负责处理该视图并显示一个面向记录的视图链接- 有人能解释面向字节的视图和面向记录的视图之间的区别吗？HDFS拆分其块（面向字节的视图），使每个块小于或等于配置的块大小。因此，它被认为没有遵循逻辑分割。表示最后一条记录的一部分可能位于一个块中，其余部分位于另一个块中。这似乎适用于存储。但在处理时，块中的部分记录无法按原样处理。因此，面向记录的视图应运而

请阅读apache文档：

InputSplit表示要由单个映射器处理的数据

通常，它在输入上显示一个面向字节的视图，作业的RecordReader负责处理该视图并显示一个面向记录的视图

链接-

有人能解释面向字节的视图和面向记录的视图之间的区别吗？

HDFS拆分其块（面向字节的视图），使每个块小于或等于配置的块大小。因此，它被认为没有遵循逻辑分割。表示最后一条记录的一部分可能位于一个块中，其余部分位于另一个块中。这似乎适用于存储。但在处理时，块中的部分记录无法按原样处理。因此，面向记录的视图应运而生。这将确保获得另一个块中最后一条记录的剩余部分，使其成为完整记录块。这称为输入拆分（面向记录的视图）