Hadoop HDFS和序列文件

Hadoop HDFS和序列文件,hadoop,hdfs,sequencefile,Hadoop,Hdfs,Sequencefile,我想到了一个更基本的概念级问题,HDFS和各种文件格式之间的区别和关系是什么——序列文件(基于它的映射文件)、HAR文件 我认为答案是,HDFS是基础文件系统,我们可以将原始二进制文件上传到HDFS(不使用序列文件、HAR文件等),也可以使用一些特殊设计的文件格式来编写基于HDFS的文件——比如序列文件(基于它的MAP文件)格式、HAR文件格式。这是正确的理解吗?HDFS是一个文件系统,不与任何特定的文件格式绑定。它是一个分布式文件系统,抽象出关于文件如何在磁盘上实际持久化的大多数内部细节(就像

我想到了一个更基本的概念级问题,HDFS和各种文件格式之间的区别和关系是什么——序列文件(基于它的映射文件)、HAR文件


我认为答案是,HDFS是基础文件系统,我们可以将原始二进制文件上传到HDFS(不使用序列文件、HAR文件等),也可以使用一些特殊设计的文件格式来编写基于HDFS的文件——比如序列文件(基于它的MAP文件)格式、HAR文件格式。这是正确的理解吗?

HDFS是一个文件系统,不与任何特定的文件格式绑定。它是一个分布式文件系统,抽象出关于文件如何在磁盘上实际持久化的大多数内部细节(就像NFS/FAT一样)。它为我们提供了文件和目录结构的连续视图,但在内部,文件实际上是在集群中的各个节点上复制和存储的


像sequence File这样的文件格式特别适合map reduce编程范例,因为它可以轻松地在数据节点之间拆分,从而实现并行处理。但是,HDFS没有这样的首选项,它可以将任何文件格式划分为块(即二进制/纯文本)并进行存储。

HDFS是一个文件系统,不与任何特定的文件格式绑定。它是一个分布式文件系统,抽象出关于文件如何在磁盘上实际持久化的大多数内部细节(就像NFS/FAT一样)。它为我们提供了文件和目录结构的连续视图,但在内部,文件实际上是在集群中的各个节点上复制和存储的

像sequence File这样的文件格式特别适合map reduce编程范例,因为它可以轻松地在数据节点之间拆分,从而实现并行处理。但是,HDFS没有这样的首选项,它可以将任何文件格式划分为块(即二进制/纯文本)并存储