如何使用Apache Airflow组织开发工作流?

如何使用Apache Airflow组织开发工作流?,airflow,airflow-scheduler,Airflow,Airflow Scheduler,我想向一个中型团队(1-10人)介绍Apache Airflow。 人们如何组织他们的工作,以便他们能够开发、测试、审查、部署,而不是互相干涉 我尝试使用docker图像进行测试,如下图所示:。人们可以在自己的机器上编写DAG,提交审查,然后我们可以将其部署到生产环境中。缺点是docker image无法访问生产环境拥有的所有服务(例如AWS API凭据),因此测试仅限于相对简单的情况,或者要求用户自己进行大量配置。环境在配置方面也略有不同(例如,依赖项必须由用户添加) 你找到答案了吗?不幸的是

我想向一个中型团队(1-10人)介绍Apache Airflow。 人们如何组织他们的工作,以便他们能够开发、测试、审查、部署,而不是互相干涉


我尝试使用docker图像进行测试,如下图所示:。人们可以在自己的机器上编写DAG,提交审查,然后我们可以将其部署到生产环境中。缺点是docker image无法访问生产环境拥有的所有服务(例如AWS API凭据),因此测试仅限于相对简单的情况,或者要求用户自己进行大量配置。环境在配置方面也略有不同(例如,依赖项必须由用户添加)

你找到答案了吗?不幸的是,据我所知,似乎还没有明确的最佳实践:(抱歉-点击回车,然后无法编辑评论),大多数团队的工作方式是:*在生产环境中进行测试*使用与上述docker方法类似的方法*拥有专用的队列/测试资源。我还遇到了第一种和第三种方法的混合:生产流实例和生产只读数据源+用于写入数据的专用开发数据存储(测试后,DAG被切换到生产数据存储进行写入)。我也在寻找答案。上面的问答非常有用!我们是否应该简单地将其转换为一个答案进行改进?我们目前尝试的另一个技巧是拥有一个共享的开发实例(不需要分发和维护,包括连接信息!)使用VSCode RemoteSSH实现快速DAG编辑周转(Git推动的速度更快)