Hive 配置单元表数据管理

Hive 配置单元表数据管理,hive,Hive,我有一张蜂巢桌。如果我要求数据每天都会进入配置单元表。如果传入的数据是新记录(inserts),则应将该记录插入配置单元表中;如果传入的数据在配置单元中已经存在(更新),则应更新该记录 有人能解释一下这是如何在蜂巢中实现的吗 我在网上查到这篇文章。 有几种方法可以做到这一点,这取决于: 你的具体要求是什么 您使用的配置单元版本是什么(因为0.14配置单元支持完整CRUD) 源数据的格式是什么(如果是一些RDBMS,可以使用Sqoop) 您必须加载的数据有多大 我认为您发布的链接很好地描述了这

我有一张蜂巢桌。如果我要求数据每天都会进入配置单元表。如果传入的数据是新记录(inserts),则应将该记录插入配置单元表中;如果传入的数据在配置单元中已经存在(更新),则应更新该记录

有人能解释一下这是如何在蜂巢中实现的吗

我在网上查到这篇文章。


有几种方法可以做到这一点,这取决于:

  • 你的具体要求是什么
  • 您使用的配置单元版本是什么(因为0.14配置单元支持完整CRUD)
  • 源数据的格式是什么(如果是一些RDBMS,可以使用Sqoop)
  • 您必须加载的数据有多大

我认为您发布的链接很好地描述了这个过程,因为它非常具体地描述了所使用的技术。更一般的描述方式是:

  • 在源数据上创建外部表
  • 将新数据追加到目标表
  • 根据唯一键或时间戳删除重复项(使用GROUP BY)
  • 我强烈建议您仔细检查并弄清楚如何完成每一步:)

    干杯,

    Karol


    有几种方法可以做到这一点,这取决于:

    • 你的具体要求是什么
    • 您使用的配置单元版本是什么(因为0.14配置单元支持完整CRUD)
    • 源数据的格式是什么(如果是一些RDBMS,可以使用Sqoop)
    • 您必须加载的数据有多大

    我认为您发布的链接很好地描述了这个过程,因为它非常具体地描述了所使用的技术。更一般的描述方式是:

  • 在源数据上创建外部表
  • 将新数据追加到目标表
  • 根据唯一键或时间戳删除重复项(使用GROUP BY)
  • 我强烈建议您仔细检查并弄清楚如何完成每一步:)

    干杯,
    Karol

    “数据将每天进入蜂巢表”-是数据摄取的一部分。您可以使用Sqoop增量导入进行相同的导入。有两种编码方式

    (1) --追加,当您知道最后一个值进入或

    (2) --上次修改,当您有一个可用于跟踪插入的日期列时使用

    对于更新,您可以按照共享链接中的说明使用外部表。

    “数据将每天进入配置单元表”-是数据摄取的一部分。您可以使用Sqoop增量导入进行相同的导入。有两种编码方式

    (1) --追加,当您知道最后一个值进入或

    (2) --上次修改,当您有一个可用于跟踪插入的日期列时使用

    对于更新,您可以使用共享链接中解释的外部表