Google cloud platform 从cloud composer触发本地hadoop集群上的任务

Google cloud platform 从cloud composer触发本地hadoop集群上的任务,google-cloud-platform,airflow,google-cloud-composer,Google Cloud Platform,Airflow,Google Cloud Composer,我正在尝试设置Google云平台气流管理服务(cloud composer),使其能够在我的本地Hadoop集群而不是Google云上触发工作流中的任务。我找不到这方面的很多信息。Cloud composer文档讲述了在Google云中的共享VPC上触发作业,但不涉及内部部署。任何帮助都将不胜感激 假设您正在运行Spark,您可以利用气流中的气流。将提交给Spark的作业(jar或py文件)必须连接到本地Hadoop集群的IP地址。请注意,远程运行此Spark作业可能需要您正确配置防火墙(不推荐

我正在尝试设置Google云平台气流管理服务(cloud composer),使其能够在我的本地Hadoop集群而不是Google云上触发工作流中的任务。我找不到这方面的很多信息。Cloud composer文档讲述了在Google云中的共享VPC上触发作业,但不涉及内部部署。任何帮助都将不胜感激

假设您正在运行Spark,您可以利用气流中的气流。将提交给Spark的作业(
jar
py
文件)必须连接到本地Hadoop集群的IP地址。请注意,远程运行此Spark作业可能需要您正确配置防火墙(不推荐),也可能需要在共享VPC中运行。后者创建一个包含集群和气流设置的专用网络,允许两个系统安全地相互通信。

Cloud Composer使用GKE集群内的CeleryExecutor吊舱运行其工作程序。要在本地基础设施中触发任务,您需要配置Composer环境,以便可以从您自己的网络基础设施访问GKE群集,除非您的基础设施可以从公共internet访问


要做到这一点,考虑调查。您可以使用云互连和云VPN来使用VPC对您的内部基础设施进行对等,您可以配置Composer来使用VPC。

请参阅如果您想通过
Airflow
执行
spark submit
-remote
hadoop
-cluster,以及如何在远程机器上执行几乎所有操作的提示(不一定是
hadoop
cluster)通过
SSH
/
Airflow
通过共享vpc您的意思是我还需要在gcp服务(cloud composer)和我的本地集群之间设置云vpn吗?