Hive 配置单元表数据管理
我有一张蜂巢桌。如果我要求数据每天都会进入配置单元表。如果传入的数据是新记录(inserts),则应将该记录插入配置单元表中;如果传入的数据在配置单元中已经存在(更新),则应更新该记录 有人能解释一下这是如何在蜂巢中实现的吗 我在网上查到这篇文章。Hive 配置单元表数据管理,hive,Hive,我有一张蜂巢桌。如果我要求数据每天都会进入配置单元表。如果传入的数据是新记录(inserts),则应将该记录插入配置单元表中;如果传入的数据在配置单元中已经存在(更新),则应更新该记录 有人能解释一下这是如何在蜂巢中实现的吗 我在网上查到这篇文章。 有几种方法可以做到这一点,这取决于: 你的具体要求是什么 您使用的配置单元版本是什么(因为0.14配置单元支持完整CRUD) 源数据的格式是什么(如果是一些RDBMS,可以使用Sqoop) 您必须加载的数据有多大 我认为您发布的链接很好地描述了这
有几种方法可以做到这一点,这取决于:
- 你的具体要求是什么
- 您使用的配置单元版本是什么(因为0.14配置单元支持完整CRUD)
- 源数据的格式是什么(如果是一些RDBMS,可以使用Sqoop)
- 您必须加载的数据有多大
我认为您发布的链接很好地描述了这个过程,因为它非常具体地描述了所使用的技术。更一般的描述方式是:
Karol
有几种方法可以做到这一点,这取决于:
- 你的具体要求是什么
- 您使用的配置单元版本是什么(因为0.14配置单元支持完整CRUD)
- 源数据的格式是什么(如果是一些RDBMS,可以使用Sqoop)
- 您必须加载的数据有多大
我认为您发布的链接很好地描述了这个过程,因为它非常具体地描述了所使用的技术。更一般的描述方式是:
Karol“数据将每天进入蜂巢表”-是数据摄取的一部分。您可以使用Sqoop增量导入进行相同的导入。有两种编码方式 (1) --追加,当您知道最后一个值进入或 (2) --上次修改,当您有一个可用于跟踪插入的日期列时使用 对于更新,您可以按照共享链接中的说明使用外部表。“数据将每天进入配置单元表”-是数据摄取的一部分。您可以使用Sqoop增量导入进行相同的导入。有两种编码方式 (1) --追加,当您知道最后一个值进入或 (2) --上次修改,当您有一个可用于跟踪插入的日期列时使用 对于更新,您可以使用共享链接中解释的外部表