Hadoop 兽人是如何划分战场的?

Hadoop 兽人是如何划分战场的?,hadoop,hive,hdfs,storage,orc,Hadoop,Hive,Hdfs,Storage,Orc,我知道这一定是个愚蠢的问题,但在谷歌搜索了几个小时后,我找不到答案 以纯文本格式(如csv)很容易理解分隔符的工作原理。在ORC中,既然二进制存储在HDFS中,那么字段的分隔符是什么?有人告诉我ORC中没有分隔符,但我对这句话非常怀疑 即使存储为行组,对于每个行组的一列,也可以有多个数据字段,每个字段与下一个字段的区别是什么?每一行与下一行是如何分开的?是否有一个分隔符来实现这一点 谢谢你的评论 没有分隔符。它使用跨步/条纹 文件正文分为条带。每条条纹都是自己的 包含并可以仅使用其自身的字节与

我知道这一定是个愚蠢的问题,但在谷歌搜索了几个小时后,我找不到答案

以纯文本格式(如csv)很容易理解分隔符的工作原理。在ORC中,既然二进制存储在HDFS中,那么字段的分隔符是什么?有人告诉我ORC中没有分隔符,但我对这句话非常怀疑

即使存储为行组,对于每个行组的一列,也可以有多个数据字段,每个字段与下一个字段的区别是什么?每一行与下一行是如何分开的?是否有一个分隔符来实现这一点


谢谢你的评论

没有分隔符。它使用跨步/条纹

文件正文分为条带。每条条纹都是自己的 包含并可以仅使用其自身的字节与 文件的页脚和Postscript。每个条带仅包含整行,因此 这些行永远不会跨越条纹边界。条纹有三条 节:条带内行的一组索引,数据 它本身和一个条纹页脚。索引和数据部分 按列划分,以便只显示所需列的数据 需要阅读

请参阅:

50年前,没有人使用字段分隔符,也没有人使用行分隔符。因为大型机文件使用具有固定宽度字段的固定宽度记录。而且因为穿孔卡片基本上是固定宽度的设备(没有键盘,没有屏幕,没有鼠标,duh),于是创建了VARCHAR(可变长度字符串)。但仍然没有分隔符:该字段以一个固定宽度的整数开头,该整数指示后面数据的长度。即,要查找下一个字段,必须跳过多少字节。另请参见旧Excel文件使用的BIFF文件格式的概念