Hive 哪种文件格式更适合在配置单元中存储更多的小文件?为什么?

Hive 哪种文件格式更适合在配置单元中存储更多的小文件?为什么?,hive,hdfs,Hive,Hdfs,如果我有更多的小文件需要存储在配置单元表中。哪种文件格式是更好的存储方式?为什么?您可以使用此mapred.job.reuse.jvm.num.tasks来改进。下面的链接很有用 您可以将这个mapred.job.reuse.jvm.num.tasks映射到改进的。下面的链接很有用 使用低效的文件格式,例如文本文件格式和在不压缩的情况下存储数据会加剧小文件问题,以不同的方式影响性能和可扩展性。例如,如果您在配置单元中有一个表,其中hdfs中有许多非常小的文件,那么最好将这些文件合并到较小的文

如果我有更多的小文件需要存储在配置单元表中。哪种文件格式是更好的存储方式?为什么?

您可以使用此mapred.job.reuse.jvm.num.tasks来改进。下面的链接很有用


您可以将这个mapred.job.reuse.jvm.num.tasks映射到改进的。下面的链接很有用


使用低效的文件格式,例如文本文件格式和在不压缩的情况下存储数据会加剧小文件问题,以不同的方式影响性能和可扩展性。例如,如果您在配置单元中有一个表,其中hdfs中有许多非常小的文件,那么最好将这些文件合并到较小的文件中,因为读取此表时会创建许多映射器

使用配置单元连接功能:

当数据存储在Hadoop中并且在其上构建配置单元表时,这种方法将非常有用。基本上,ApacheHive提供了一个命令,用于将分区内的小文件合并为较大的文件。下面是该命令的外观:

ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;

仅当数据文件以RCORC格式存储时,此方法才有效。

使用低效的文件格式,例如文本文件格式和存储数据而不进行压缩会加剧小文件问题,以不同方式影响性能和可伸缩性。例如,如果您在配置单元中有一个表,其中hdfs中有许多非常小的文件,那么最好将这些文件合并到较小的文件中,因为读取此表时会创建许多映射器

使用配置单元连接功能:

当数据存储在Hadoop中并且在其上构建配置单元表时,这种方法将非常有用。基本上,ApacheHive提供了一个命令,用于将分区内的小文件合并为较大的文件。下面是该命令的外观:

ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;
仅当数据文件以RCORC格式存储时,此功能才起作用