Hadoop中有多少种输入格式?

Hadoop中有多少种输入格式?,hadoop,Hadoop,我不熟悉Hadoop,想知道Hadoop中有多少种类型的InputFormat,比如TextInputFormat?是否有某种InputFormat,我可以通过http请求将文件读取到远程数据服务器 谢谢:)您的第一个问题-Hadoop中有多少种类型的InputFormat,比如TextInputFormat TextInputFormat-每一行都将被视为值 KeyValueTextInputFormat-分隔符前的第一个值是键,其余值是值 固定长度输入格式-每个固定长度值都视为 NLineI

我不熟悉
Hadoop
,想知道
Hadoop
中有多少种类型的
InputFormat
,比如
TextInputFormat
?是否有某种
InputFormat
,我可以通过http请求将文件读取到远程数据服务器


谢谢:)

您的第一个问题-Hadoop中有多少种类型的InputFormat,比如TextInputFormat

  • TextInputFormat
    -每一行都将被视为值
  • KeyValueTextInputFormat
    -分隔符前的第一个值是键,其余值是值
  • 固定长度输入格式
    -每个固定长度值都视为
  • NLineInputFormat
    -N行数视为一个值/记录
  • SequenceFileInputFormat
    -用于二进制文件
  • 还有从数据库读取的
    DBInputFormat


    第二个问题-没有输入格式可以通过http请求读取文件

    有许多
    实现

    请查看何时使用哪种类型的
    Inputformat

    其中,最常用的
    格式是:

    • FileInputFormat
      :所有基于文件的输入格式的基类
    • KeyValueTextInputFormat
      :纯文本文件的输入格式。文件被分成几行。换行或回车都是用来表示换行结束的。每行由一个分隔字节划分为键和值部分。如果不存在这样的字节,则键将是整行,值将为空
    • TextInputFormat
      :纯文本文件的输入格式。文件被分成几行。换行符或回车符用于表示换行结束。键是文件中的位置,值是文本行
    • NLineInputFormat
      :NLineInputFormat将N行输入拆分为一个拆分。在许多“令人愉快”的并行应用程序中,每个进程/映射器处理相同的输入文件,但计算由不同的参数控制
    • SequenceFileInputFormat
      :SequenceFile的输入格式

    关于第二个查询,首先从远程
    服务器
    获取文件,并根据文件中的内容使用适当的
    InputFileFormat
    <代码>Hadoop
    最适合数据局部性。

    第二个问题呢?有什么解决办法吗?
    CombineFileInputFormat, CombineSequenceFileInputFormat, 
    CombineTextInputFormat, CompositeInputFormat, DBInputFormat,
    FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat, 
    MultiFileInputFormat, NLineInputFormat, Parser.Node, 
    SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat, 
    SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat