Hive 向表中添加时间分区的最佳实践

Hive 向表中添加时间分区的最佳实践,hive,emr,hiveql,Hive,Emr,Hiveql,具有按时间(年、月、日、小时)划分的事件表 想加入hive脚本中的一些事件,以年、月、日、小时为变量, 例如,您如何添加我上班前6小时的所有事件 没有“恢复所有…” 10x所以基本上我需要的是一种使用Hive脚本接收的日期作为参数的方法 并在该日期之前3小时和之后3小时添加所有分区,而不恢复所有分区,并在每个Where子句中添加特定的小时数 在配置单元脚本中找不到执行此操作的方法,因此我编写了一个快速python代码,其中包含日期和表名,以及从之前/之后添加的小时数。 尝试在配置单元脚本中运行时

具有按时间(年、月、日、小时)划分的事件表 想加入hive脚本中的一些事件,以年、月、日、小时为变量, 例如,您如何添加我上班前6小时的所有事件 没有“恢复所有…”


10x

所以基本上我需要的是一种使用Hive脚本接收的日期作为参数的方法 并在该日期之前3小时和之后3小时添加所有分区,而不恢复所有分区,并在每个Where子句中添加特定的小时数

在配置单元脚本中找不到执行此操作的方法,因此我编写了一个快速python代码,其中包含日期和表名,以及从之前/之后添加的小时数。 尝试在配置单元脚本中运行时,使用: !python script.py表名${hivecond:my.date}3 我很惊讶变量substation没有发生在以

我的解决方法是使用以下方法获取配置单元脚本从计算机中的日志文件接收的日期: 'cat/mnt/var/log/hadoop/steps/
ls/mnt/var/log/hadoop/steps/| sort-r | head-n1
/stdout' 从那里,您可以解析python代码中的每个配置单元参数,而无需通过配置单元传递它