Hadoop输入格式-用法
我知道Hadoop中的不同文件格式吗?默认情况下,hadoop使用文本输入格式。使用文本输入格式的优点/缺点是什么。 与文本输入格式相比,avro的优点/缺点是什么Hadoop输入格式-用法,hadoop,avro,Hadoop,Avro,我知道Hadoop中的不同文件格式吗?默认情况下,hadoop使用文本输入格式。使用文本输入格式的优点/缺点是什么。 与文本输入格式相比,avro的优点/缺点是什么 另外,请帮助我了解不同文件格式(Avro、Sequence、TextInput、RCFile)的用例。我认为文本作为默认文本没有任何好处,只是其内容是人类可读和友好的。您可以通过发布Hadoop fs-cat来轻松查看内容 文本格式的缺点是 这会占用更多的磁盘资源,因此会影响生产作业的效率 写入/解析文本记录需要更多的时间 在文本
另外,请帮助我了解不同文件格式(Avro、Sequence、TextInput、RCFile)的用例。我认为文本作为默认文本没有任何好处,只是其内容是人类可读和友好的。您可以通过发布Hadoop fs-cat来轻松查看内容 文本格式的缺点是
- 这会占用更多的磁盘资源,因此会影响生产作业的效率
- 写入/解析文本记录需要更多的时间
- 在文本由多列组成的情况下,没有维护数据类型的选项
除此之外,您还可以考虑ORC和拼花文件格式。
文本格式的另一个缺点是缺少任何方案。