Amazon web services 如何使用Airflow运行资源密集型任务

Amazon web services 如何使用Airflow运行资源密集型任务,amazon-web-services,machine-learning,airflow,Amazon Web Services,Machine Learning,Airflow,我们有一个长时间运行(3h)模型训练任务,每3天运行一次,每天运行较小的预测管道。 对于这两种情况,我们都使用Jenkins+EC2插件来启动大型实例(worker)并在其上运行管道。这有两个目的: 保持管道隔离。因此,每个管道都有一个实例的所有资源 我们节省成本。大型实例仅运行数小时,而不是全天候运行 使用Jenkins+EC2插件,我不负责将代码复制到worker并报告执行结果。詹金斯在引擎盖下做这件事 有没有办法实现与气流相同的行为?气流1.10发布了一系列新的AWS集成,为您在AWS上执

我们有一个长时间运行(3h)模型训练任务,每3天运行一次,每天运行较小的预测管道。 对于这两种情况,我们都使用Jenkins+EC2插件来启动大型实例(worker)并在其上运行管道。这有两个目的:

  • 保持管道隔离。因此,每个管道都有一个实例的所有资源
  • 我们节省成本。大型实例仅运行数小时,而不是全天候运行
  • 使用Jenkins+EC2插件,我不负责将代码复制到worker并报告执行结果。詹金斯在引擎盖下做这件事


    有没有办法实现与气流相同的行为?

    气流1.10发布了一系列新的AWS集成,为您在AWS上执行类似操作提供了一些选项


    如果您在容器化环境中运行任务,听起来ECSOperator或KubernetesPodOperator可能是您需要的(如果您使用Kubernetes)。

    我想aws批处理可能是更好的选择。在这两种情况下,我都需要首先对代码进行dockerize,这也意味着更复杂的部署过程。