Apache Airflow-使用上次运行日期维护dag_ID表?

Apache Airflow-使用上次运行日期维护dag_ID表?,airflow,airflow-scheduler,Airflow,Airflow Scheduler,ApacheAirflow有一些MYSQL表,如dag、dag_run、job that 维护dag的元数据字段,包括dag运行时。但是,如果这些表上的频率和报告查询负载增加,那么让外部查询作业查询这些生产气流表以检查上次运行的完成情况可能不是一个好的设计实践 另一个可能的选择是在dag中添加python代码,以维护另一个单独的数据库表,该表将在每次dag任务运行时保存dag id及其运行时元数据。此表将位于airflow之外,需要更新dag代码以将元数据保存到新的数据库表中 通过外部报告查询检

ApacheAirflow有一些MYSQL表,如dag、dag_run、job that
维护dag的元数据字段,包括dag运行时。但是,如果这些表上的频率和报告查询负载增加,那么让外部查询作业查询这些生产气流表以检查上次运行的完成情况可能不是一个好的设计实践

另一个可能的选择是在dag中添加python代码,以维护另一个单独的数据库表,该表将在每次dag任务运行时保存dag id及其运行时元数据。此表将位于airflow之外,需要更新dag代码以将元数据保存到新的数据库表中


通过外部报告查询检查airflow dag任务的上次运行完成时间的推荐方法或更好的替代设计是什么?

如果您只是定期查询数据库,则最好从只读帐户公开airflow数据库应该没有问题。只需关注数据库的运行情况

如果您需要经常点击它,您可能希望将数据复制到另一个数据库。根据您愿意接受的“滞后”量,您可以在一定的时间间隔内简单地查询Airflow数据库以将状态写入其他位置——您甚至可以使用Airflow为您完成这项工作

如果需要实时信息,您可能希望查看如何修改流程,并添加一个任务以将记录插入数据库