Airflow 气流如何连接到Spark,是否可以在气流中为用户设置不同的访问权限?

Airflow 气流如何连接到Spark,是否可以在气流中为用户设置不同的访问权限?,airflow,apache-airflow,airflow-scheduler,Airflow,Apache Airflow,Airflow Scheduler,嗨,我还是个新手。我想知道气流如何连接到火花? 我有一个具有不同帐户(或配置文件)的服务器来访问Spark群集。我想知道气流是否有固定的轮廓来连接火花?或者它遵循用户配置文件 此外,是否可以为气流中的用户设置不同的访问权限? 例如,有权访问Spark(或hdfs)中位置A的用户A只能运行与位置A相关的任务(因此无法从位置B运行任何作业) 提前感谢。您可以在Airflow repo的conrtib文件夹中查看社区贡献的SparkSubmitOperator。基本上,该操作符通过python运行sp

嗨,我还是个新手。我想知道气流如何连接到火花? 我有一个具有不同帐户(或配置文件)的服务器来访问Spark群集。我想知道气流是否有固定的轮廓来连接火花?或者它遵循用户配置文件

此外,是否可以为气流中的用户设置不同的访问权限? 例如,有权访问Spark(或hdfs)中位置A的用户A只能运行与位置A相关的任务(因此无法从位置B运行任何作业)


提前感谢。

您可以在Airflow repo的conrtib文件夹中查看社区贡献的SparkSubmitOperator。基本上,该操作符通过python运行spark submit子流程并等待其完成。自上一个稳定版本(1.8.1)以来,该操作符已得到显著改进。如果您已经有了spark设置,并且不希望气流控制spark作业的运行位置,则此操作非常有效

用户权限问题更为复杂。其中一种方法是修改SparkSubmitOperator来设置子流程的环境参数,并将此参数作为此运算符的(额外)输入,从而解决此问题