Hive ApachePig-最佳配置单元文件格式

Hive ApachePig-最佳配置单元文件格式,hive,hadoop2,parquet,sequential,orc,Hive,Hadoop2,Parquet,Sequential,Orc,有人能解释一下,使用HCatalog在pigScript中使用哪种配置单元的文件模板是有效的吗 我想了解哪些配置单元文件格式将是有效的,因为目前我们有一个基于日期的分区配置单元表,并且基础文件是顺序文件。 阅读80天的数据产生了大约70000个地图绘制者,这是非常巨大的。尝试将地图分割大小更改为2GB,但没有减少多少 因此,与其使用顺序文件,不如使用其他选项来减少映射器的数量。每个数据的数据大小为9GB 有什么建议或灵感吗 多谢各位 据我所知,ORC是最适合hive的文件格式,它具有高压缩比、高

有人能解释一下,使用HCatalog在pigScript中使用哪种配置单元的文件模板是有效的吗

我想了解哪些配置单元文件格式将是有效的,因为目前我们有一个基于日期的分区配置单元表,并且基础文件是顺序文件。 阅读80天的数据产生了大约70000个地图绘制者,这是非常巨大的。尝试将地图分割大小更改为2GB,但没有减少多少

因此,与其使用顺序文件,不如使用其他选项来减少映射器的数量。每个数据的数据大小为9GB

有什么建议或灵感吗


多谢各位

据我所知,ORC是最适合hive的文件格式,它具有高压缩比、高效处理大量数据以及更快的读取速度。ORC存储为列并进行压缩,从而减少磁盘读取。柱状格式也是配置单元中矢量化优化的理想格式