Google cloud platform 如何使用DataprocOperator在Google DataProc集群上运行shell脚本

Google cloud platform 如何使用DataprocOperator在Google DataProc集群上运行shell脚本,google-cloud-platform,airflow,google-cloud-dataproc,Google Cloud Platform,Airflow,Google Cloud Dataproc,一旦集群设置完毕,我将尝试在Dataproc集群中运行shell脚本。我被卡住了,或者不确定要传递给操作员的参数是什么,以便在集群启动并运行后触发.sh文件 用于创建簇的示例代码: create\u cluster=DataprocClusterCreateOperator( task_id='create_dataproc_cluster', cluster\u name=DAG\u CONFIG['DATAPROC']['cluster\u name'], project\u id=DAG\

一旦集群设置完毕,我将尝试在Dataproc集群中运行shell脚本。我被卡住了,或者不确定要传递给操作员的参数是什么,以便在集群启动并运行后触发.sh文件

用于创建簇的示例代码:

create\u cluster=DataprocClusterCreateOperator(
task_id='create_dataproc_cluster',
cluster\u name=DAG\u CONFIG['DATAPROC']['cluster\u name'],
project\u id=DAG\u CONFIG['project\u id'],
num_workers=DAG_CONFIG['DATAPROC']['num_workers'],
zone=DAG_配置['DATAPROC']['zone'],
子网\u uri=DAG\u配置['DATAPROC']['subnetwork\u uri'],
主机器类型='n1-standard-1',
主盘类型='pd-standard',
主盘大小=50,
工人机器类型='n1-standard-1',
工作盘类型='pd-standard',
辅助磁盘大小=50,
auto_delete_ttl=DAG_配置['DATAPROC']['auto_delete_ttl'],
存储桶=DAG配置['GCS_暂存]['bucket_名称],
dag=dag_ID)
这就是我需要通过DataProcHadoop操作符或任何适合的操作符提交shell脚本的地方

Shell\u Task=dataprochadoop运算符(
任务\u id='shell\u Submit',
main_jar='???',
项目_id='xxx',
参数=[?],
作业名称={{task.task_id}}{{ds_nodash}}},
cluster\u name=DAG\u CONFIG['DATAPROC']['cluster\u name'],
gcp_conn_id='google_cloud_default',
region=DAG_CONFIG['DATAPROC']['zone'],
dag=dag_ID)

任何帮助都将不胜感激。

在集群创建期间,在每个Dataproc VM上运行shell脚本

您可以通过以下方式指定它们:

DataprocClusterCreateOperator(
# ...
init_actions_uris=['gs:///path/to/init/action.sh'],
# ...
)
您是否考虑过使用看起来很合适的
DataprocClusterCreateOperator
操作符