Amazon web services 备份配置单元内部表的最佳存储格式
我有一个hive内部表,它有大约5亿条记录。 我的蜂箱部署在AWS EMR的顶部。我不想让AWS EMR一直运行。因此,我想备份配置单元内部表数据 一种简单的方法是创建一个指向S3位置的外部表,然后使用insert命令将所有记录移动到该外部表中。 当我需要返回内部表时,我可以使用这个外部S3表来返回所有数据 由于此表仅用于备份,我想问一下,哪种存储格式对我来说是最佳选择 到目前为止,配置单元支持以下格式Amazon web services 备份配置单元内部表的最佳存储格式,amazon-web-services,hadoop,hive,data-warehouse,Amazon Web Services,Hadoop,Hive,Data Warehouse,我有一个hive内部表,它有大约5亿条记录。 我的蜂箱部署在AWS EMR的顶部。我不想让AWS EMR一直运行。因此,我想备份配置单元内部表数据 一种简单的方法是创建一个指向S3位置的外部表,然后使用insert命令将所有记录移动到该外部表中。 当我需要返回内部表时,我可以使用这个外部S3表来返回所有数据 由于此表仅用于备份,我想问一下,哪种存储格式对我来说是最佳选择 到目前为止,配置单元支持以下格式 TEXTFILE SEQUENCEFILE ORC PARQUET AVRO RCFILE
TEXTFILE
SEQUENCEFILE
ORC
PARQUET
AVRO
RCFILE
除上述方法外,是否还有其他方法备份内部表。简而言之
我认为更改文件格式(您提到的列表)在大小上不会有太大差异但文件大小和您希望对该文件的访问类型对您的云帐户计费起着至关重要的作用
<>请考虑以下,
- 从存档存储中访问文件
- 将数据格式转换为配置单元托管表(如果在存档期间更改)
- 对数据进行解压缩(每次压缩都是在时间和大小之间进行权衡)
扩展答案 以下是一些文件格式及其解压缩速度和空间效率,为您选择平衡的(根据上述问题表示时间/空间)和可用的压缩格式