Google cloud platform 在Google Dataproc中创建批量配置单元表

Google cloud platform 在Google Dataproc中创建批量配置单元表,google-cloud-platform,google-cloud-dataproc,Google Cloud Platform,Google Cloud Dataproc,我对Google云平台非常陌生,我正在做一个POC,用于将配置单元应用程序(表和作业)移动到Google Dataproc。数据已经被移动到谷歌云存储 是否有一种内置方法可以从dataproc中的配置单元批量创建所有表,而不是使用配置单元提示符逐个创建?dataproc支持配置单元作业类型,因此您可以使用gcloud命令: gcloud dataproc jobs submit hive --cluster=CLUSTER \ -e 'create table t1 (id int, na

我对Google云平台非常陌生,我正在做一个POC,用于将配置单元应用程序(表和作业)移动到Google Dataproc。数据已经被移动到谷歌云存储


是否有一种内置方法可以从dataproc中的配置单元批量创建所有表,而不是使用配置单元提示符逐个创建?

dataproc支持配置单元作业类型,因此您可以使用gcloud命令:

gcloud dataproc jobs submit hive --cluster=CLUSTER \
   -e 'create table t1 (id int, name string); create table t2 ...;'

您还可以SSH到主节点,然后使用直线执行脚本:

beeline -u jdbc:hive2://localhost:10000 -f create_tables.hql

我知道我可以在一个文件中预先创建所有的hive DDL并将其放入GCS,然后使用beeline运行此文件,但是有没有办法自动化此过程?谢谢@Dagang的回答。您认为触发这些命令的最佳方式是什么,因为我将不得不自动化整个过程。我是否可以创建一个运行上述任何命令的dataproc工作流,或者如果您有其他更好的方法,请共享!根据您的用例,有许多方法可以自动执行命令。您可以考虑DATAPROC工作流、云作曲器、Terraform、从另一个GCE VM运行的简单shell脚本等。
beeline -u jdbc:hive2://localhost:10000 -f create_tables.hql