Google cloud platform 使用git存储库中的代码运行dataproc作业

Google cloud platform 使用git存储库中的代码运行dataproc作业,google-cloud-platform,pyspark,airflow,google-cloud-dataproc,google-cloud-composer,Google Cloud Platform,Pyspark,Airflow,Google Cloud Dataproc,Google Cloud Composer,我正在查看以了解将pyspark作业的代码文件和依赖项文件(pyfiles)发送到何处。据我所知,我应该使用“main”和“pyfiles”参数。 但不清楚这些文件应该存在哪里。我可以给git一个链接,然后从那里获取它们吗?或者我应该使用Google云存储(在我的情况下,我使用的是Google云)? 或者我应该自己处理文件副本,然后提供到主存储器的链接吗?您需要将其传递到main。它可以是本地python文件,也可以是GCS上的文件,两者都受支持。如果文件是本地文件,Airflow会将其上载到G

我正在查看以了解将pyspark作业的代码文件和依赖项文件(pyfiles)发送到何处。据我所知,我应该使用“main”和“pyfiles”参数。 但不清楚这些文件应该存在哪里。我可以给git一个链接,然后从那里获取它们吗?或者我应该使用Google云存储(在我的情况下,我使用的是Google云)?
或者我应该自己处理文件副本,然后提供到主存储器的链接吗?

您需要将其传递到
main
。它可以是本地python文件,也可以是GCS上的文件,两者都受支持。如果文件是本地文件,Airflow会将其上载到GCS并将该路径传递到Dataproc API。

您使用的是自我管理的Airflow还是cloud composer?@psychoCoder我使用的是自我管理的,但我认为自我管理和composer的答案应该是一样的,不是吗?