Airflow 如何从Apache触发azure Databricks笔记本
我在Azure data bricks笔记本中创建了一些ETL。 现在尝试从airflow-1.10.10执行笔记本 如果有人能帮忙,那就太好了 提前感谢。Airflow,它提供了两个操作符:Airflow 如何从Apache触发azure Databricks笔记本,airflow,databricks,azure-databricks,Airflow,Databricks,Azure Databricks,我在Azure data bricks笔记本中创建了一些ETL。 现在尝试从airflow-1.10.10执行笔记本 如果有人能帮忙,那就太好了 提前感谢。Airflow,它提供了两个操作符:DatabricksRunnoOperator&DatabricksSubmitRunOperator(包名因Airflow的版本而异。还有一个 您需要创建一个名为databricks\u default的连接,该连接带有用于计划作业的登录参数。在最简单的情况下,对于作业,您只需要提供集群定义和笔记本规范(
DatabricksRunnoOperator
&DatabricksSubmitRunOperator
(包名因Airflow的版本而异。还有一个
您需要创建一个名为databricks\u default
的连接,该连接带有用于计划作业的登录参数。在最简单的情况下,对于作业,您只需要提供集群定义和笔记本规范(至少是笔记本运行路径),如下所示:
notebook_task_params = {
'new_cluster': new_cluster,
'notebook_task': {
'notebook_path': '/Users/airflow@example.com/PrepareData',
},
}
# Example of using the JSON parameter to initialize the operator.
notebook_task = DatabricksSubmitRunOperator(
task_id='notebook_task',
json=notebook_task_params
)
另外,有一个关于此集成的公告。它将如何在Databricks和Airflow之间进行通信。我们是否需要在Airflow中的某个位置传递工作区id或令牌?以及我们将如何将参数从Airflow传递到data bricks笔记本。我在asnwer中写道“使用name
databricks\u default
和登录参数创建一个连接,该参数将用于安排您的工作”。请查看链接示例和博客文章