Hadoop中有多少种输入格式?
我不熟悉Hadoop中有多少种输入格式?,hadoop,Hadoop,我不熟悉Hadoop,想知道Hadoop中有多少种类型的InputFormat,比如TextInputFormat?是否有某种InputFormat,我可以通过http请求将文件读取到远程数据服务器 谢谢:)您的第一个问题-Hadoop中有多少种类型的InputFormat,比如TextInputFormat TextInputFormat-每一行都将被视为值 KeyValueTextInputFormat-分隔符前的第一个值是键,其余值是值 固定长度输入格式-每个固定长度值都视为 NLineI
Hadoop
,想知道Hadoop
中有多少种类型的InputFormat
,比如TextInputFormat
?是否有某种InputFormat
,我可以通过http请求将文件读取到远程数据服务器
谢谢:)您的第一个问题-Hadoop中有多少种类型的InputFormat,比如TextInputFormat
TextInputFormat
-每一行都将被视为值KeyValueTextInputFormat
-分隔符前的第一个值是键,其余值是值固定长度输入格式
-每个固定长度值都视为NLineInputFormat
-N行数视为一个值/记录SequenceFileInputFormat
-用于二进制文件DBInputFormat
第二个问题-没有输入格式可以通过http请求读取文件 有许多
类
实现
请查看何时使用哪种类型的Inputformat
其中,最常用的格式是:
FileInputFormat
:所有基于文件的输入格式的基类
KeyValueTextInputFormat
:纯文本文件的输入格式。文件被分成几行。换行或回车都是用来表示换行结束的。每行由一个分隔字节划分为键和值部分。如果不存在这样的字节,则键将是整行,值将为空
TextInputFormat
:纯文本文件的输入格式。文件被分成几行。换行符或回车符用于表示换行结束。键是文件中的位置,值是文本行
NLineInputFormat
:NLineInputFormat将N行输入拆分为一个拆分。在许多“令人愉快”的并行应用程序中,每个进程/映射器处理相同的输入文件,但计算由不同的参数控制
SequenceFileInputFormat
:SequenceFile的输入格式
关于第二个查询,首先从远程服务器
获取文件,并根据文件中的内容使用适当的InputFileFormat
<代码>Hadoop
最适合数据局部性。第二个问题呢?有什么解决办法吗?
CombineFileInputFormat, CombineSequenceFileInputFormat,
CombineTextInputFormat, CompositeInputFormat, DBInputFormat,
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat,
MultiFileInputFormat, NLineInputFormat, Parser.Node,
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat,
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat