Hive 蜂巢不';不支持合并功能

Hive 蜂巢不';不支持合并功能,hive,hiveql,cloudera-manager,Hive,Hiveql,Cloudera Manager,试图将值从表更新到另一个表,这两个表都有相同的字段名,但值不同,查询必须在任何普通数据库上正常工作,但在这里返回 编译语句时出错:失败:ParseException行1:0 无法识别“合并”到“最终”附近的输入 配置单元合并语句在中引入 运行这些合并语句的先决条件是: 最终表格需要使用启用事务、ORC格式和带扣的创建 如果出现这种情况,我们需要使用Kudu从cloudera-5.10+开始执行upsert操作 注意:Upsert语句仅适用于使用Kudu存储引擎的Impala表。 我认为我们

试图将值从表更新到另一个表,这两个表都有相同的字段名,但值不同,查询必须在任何普通数据库上正常工作,但在这里返回

编译语句时出错:失败:ParseException行1:0 无法识别“合并”到“最终”附近的输入

配置单元合并语句在中引入

  • 运行这些
    合并语句的先决条件是:

    最终表格需要使用启用事务、ORC格式和带扣的
    创建

如果出现这种情况,我们需要使用
Kudu
cloudera-5.10+
开始执行upsert操作

注意:
Upsert语句仅适用于使用Kudu存储引擎的Impala表。

  • 我认为我们现在还不能像
    CDH
    发行版中的帖子中提到的那样运行merge语句
Hive合并语句在中引入

  • 运行这些
    合并语句的先决条件是:

    最终表格需要使用启用事务、ORC格式和带扣的
    创建

如果出现这种情况,我们需要使用
Kudu
cloudera-5.10+
开始执行upsert操作

注意:
Upsert语句仅适用于使用Kudu存储引擎的Impala表。

  • 我认为我们现在还不能像
    CDH
    发行版中的帖子中提到的那样运行merge语句

第一件事hive不是数据库。您可以使用HDFS文件或使用insert overwrite命令/Syntaxa加载数据impala是否支持这些功能?我已经在pyspark和vettica之间建立了JDBC连接,访问了所需的数据,数据已经传输到hive,但现在我正在尝试使用每个批更新数据,有什么建议吗?您可以使用直线命令或使用GCP1st来做hive不是数据库的事情。您可以使用HDFS文件或使用insert overwrite命令/Syntaxa加载数据impala是否支持这些功能?我已经在pyspark和vettica之间建立了JDBC连接,访问了所需的数据,数据已经传输到hive,但现在我正在尝试使用每个批更新数据,有什么建议吗?你可以使用直线命令或GCP
MERGE 
INTO FINAL 
USING FIRST_STAGE
ON IMSI = FIRST_STAGE.IMSI and Site = FIRST_STAGE.Site
WHEN MATCHED THEN UPDATE SET
  Min_Date = least(FIRST_STAGE.Min_Date, Min_Date),
  Max_Date = greatest(FIRST_STAGE.Max_Date, Max_Date),
  NoofDays = FIRST_STAGE.NoofDays + NoofDays,
  Down_Link = FIRST_STAGE.Down_Link + Down_Link,
  up_Link = FIRST_STAGE.up_Link + up_Link,
  connection = FIRST_STAGE.connection + connection
WHEN NOT MATCHED THEN INSERT ( Min_Date, 
  Max_Date, 
  NoofDays, 
  IMSI, 
  Site, 
  Down_Link, 
  Up_Link, 
  Connection )
VALUES ( FIRST_STAGE.Min_Date, 
  FIRST_STAGE.Max_Date, 
  FIRST_STAGE.NoofDays, 
  FIRST_STAGE.IMSI, 
  FIRST_STAGE.Site, 
  FIRST_STAGE.Down_Link, 
  FIRST_STAGE.Up_Link, 
  FIRST_STAGE.Connection )