Hive “自动执行”;“验证元数据”;在黑斑羚

Hive “自动执行”;“验证元数据”;在黑斑羚,hive,cloudera,tableau-api,impala,Hive,Cloudera,Tableau Api,Impala,我有连接到Cloudera Impala数据的Tableau。我从Metastore中读取的表不断更新,因此,当我想要更新viz(按F5)时,我必须在刷新viz之前转到Cloudera中的Impala并执行“使元数据无效”。我知道这可以通过连接到HiveServer2来完成,但是执行查询需要很长时间。我的问题是,在Impala Cloudera中是否有自动执行“验证元数据”和“刷新”查询的功能 谢谢 不幸的是,Impala还没有提供自动更新元数据的机制。我们正在为将来做这方面的工作,尽管我们还没

我有连接到Cloudera Impala数据的Tableau。我从Metastore中读取的表不断更新,因此,当我想要更新viz(按F5)时,我必须在刷新viz之前转到Cloudera中的Impala并执行“使元数据无效”。我知道这可以通过连接到HiveServer2来完成,但是执行查询需要很长时间。我的问题是,在Impala Cloudera中是否有自动执行“验证元数据”和“刷新”查询的功能

谢谢


不幸的是,Impala还没有提供自动更新元数据的机制。我们正在为将来做这方面的工作,尽管我们还没有将这样的功能提交到特定的版本中

同时,你可以做一些事情来让这更容易。首先,表格是如何更新的?有新的数据文件吗?如果是这样,您可以运行刷新,这会更快。此外,请确保仅使特定表无效/刷新,例如,
刷新我的表
。有关详细信息,请参阅
[INVALIDATE METADATA][1]
的文档

后台是否有一些ETL过程?一些用户修改其工作流,以便在更新表后向impala发出刷新命令,例如:。
在脚本中添加
impalashell-i-q“刷新我的表格”

Flume接收数据,Hive创建表格,然后Tableau创建viz。所以我想要viz。使用黑斑羚更新,因为它比蜂巢快得多。你能用黑斑羚创建表吗?然后您就不需要显式地更新元数据了。我在我使用的impala中尝试过:创建外部表ImpData(DatetimeL TIMESTAMP,V1 FLOAT,V2 FLOAT,V3 FLOAT)行格式分隔字段,以“,”LOCATION“/user/data/”结尾;我认为,Impala中的任何更新/创建表都需要执行Invalidate/refresh。如果您在同一节点上发出CREATE TABLE,然后执行后续查询,那么就不需要了,因为impalad已经知道元数据的更改。你观察到的行为是什么?