Hadoop 兽人是如何划分战场的？_Hadoop_Hive_Hdfs_Storage_Orc

Hadoop 兽人是如何划分战场的？

hadoop hive

Hadoop 兽人是如何划分战场的？,hadoop,hive,hdfs,storage,orc,Hadoop,Hive,Hdfs,Storage,Orc,我知道这一定是个愚蠢的问题，但在谷歌搜索了几个小时后，我找不到答案以纯文本格式（如csv）很容易理解分隔符的工作原理。在ORC中，既然二进制存储在HDFS中，那么字段的分隔符是什么？有人告诉我ORC中没有分隔符，但我对这句话非常怀疑即使存储为行组，对于每个行组的一列，也可以有多个数据字段，每个字段与下一个字段的区别是什么？每一行与下一行是如何分开的？是否有一个分隔符来实现这一点谢谢你的评论没有分隔符。它使用跨步/条纹文件正文分为条带。每条条纹都是自己的包含并可以仅使用其自身的字节与

我知道这一定是个愚蠢的问题，但在谷歌搜索了几个小时后，我找不到答案

以纯文本格式（如csv）很容易理解分隔符的工作原理。在ORC中，既然二进制存储在HDFS中，那么字段的分隔符是什么？有人告诉我ORC中没有分隔符，但我对这句话非常怀疑

即使存储为行组，对于每个行组的一列，也可以有多个数据字段，每个字段与下一个字段的区别是什么？每一行与下一行是如何分开的？是否有一个分隔符来实现这一点

谢谢你的评论

没有分隔符。它使用跨步/条纹

文件正文分为条带。每条条纹都是自己的包含并可以仅使用其自身的字节与文件的页脚和Postscript。每个条带仅包含整行，因此这些行永远不会跨越条纹边界。条纹有三条节：条带内行的一组索引，数据它本身和一个条纹页脚。索引和数据部分按列划分，以便只显示所需列的数据需要阅读

请参阅：

50年前，没有人使用字段分隔符，也没有人使用行分隔符。因为大型机文件使用具有固定宽度字段的固定宽度记录。而且因为穿孔卡片基本上是固定宽度的设备（没有键盘，没有屏幕，没有鼠标，duh），于是创建了VARCHAR（可变长度字符串）。但仍然没有分隔符：该字段以一个固定宽度的整数开头，该整数指示后面数据的长度。即，要查找下一个字段，必须跳过多少字节。另请参见旧Excel文件使用的BIFF文件格式的概念