Hive ORC文件格式

Hive ORC文件格式,hive,Hive,我是新来的蜂巢。你们能告诉我下面问题的答案吗 为什么在ORC中加载数据时需要基表? 我们不能直接将表创建为ORC并在其中加载数据吗。为什么在ORC中加载数据时需要基表? 我们需要一个基本表,因为大多数情况下,我们以文本文件格式获取数据文件,即CSV、TXT、DAT或任何其他分隔符,我们可以打开文件并查看内容。但是文件格式ORC通过使用他们的算法来优化行和列,以不同的方式进行维护。 因此,我们需要一个基表,所以,实际上在这种情况下发生了什么。我们用文本文件格式创建一个表,并在其上选择数据,然后将其

我是新来的蜂巢。你们能告诉我下面问题的答案吗

为什么在ORC中加载数据时需要基表?
我们不能直接将表创建为ORC并在其中加载数据吗。为什么在ORC中加载数据时需要基表? 我们需要一个基本表,因为大多数情况下,我们以文本文件格式获取数据文件,即CSV、TXT、DAT或任何其他分隔符,我们可以打开文件并查看内容。但是文件格式ORC通过使用他们的算法来优化行和列,以不同的方式进行维护。 因此,我们需要一个基表,所以,实际上在这种情况下发生了什么。我们用文本文件格式创建一个表,并在其上选择数据,然后将其写入ORC表

2。我们不能直接将表创建为ORC并在其中加载数据吗?

是的,您可以直接将数据加载到ORC文件中


要了解更多关于ORC的信息,如果不定义文件格式,通常可以参考

,对于hive,默认情况下它是textfile。 之所以需要基表,是因为当您使用orc格式创建配置单元表,然后尝试使用以下命令加载数据时: 加载路径“”中的数据。。 它只是将数据从一个位置移动到另一个位置。 配置单元orc表无法理解文本文件。这就是塞德出现的时候。您可以在创建表时定义serde。 因此,当执行以下操作时: 1.选择*(读取) 2.插入(写入)


serde将把各种格式序列化和解析为orc,并将数据映射到配置单元列。

您可以直接将表创建为orc表。