Python 3.x 优化气流dag

Python 3.x 优化气流dag,python-3.x,concurrency,parallel-processing,airflow,Python 3.x,Concurrency,Parallel Processing,Airflow,我是新来的Apache。我创建了一个气流dag,其中有两个并行运行的图像处理任务。基本上,我正在尝试读取PDF(由10页组成),将每个页面并行地转换为图像,对每个页面进行一些图像处理,并将输出转储到JSON(在为每个页面合并输出后)。查看下图: 到目前为止,我使用了运行在8核cpu(单机)之上的本地执行器(默认配置)。完成该过程约需40分钟。 我还调整了配置,将max_threads更改为8,parallelism更改为8,dag_concurrency更改为8。大约花了20分钟 我希望整个过

我是新来的
Apache
。我创建了一个气流dag,其中有两个并行运行的图像处理任务。基本上,我正在尝试读取PDF(由10页组成),将每个页面并行地转换为图像,对每个页面进行一些图像处理,并将输出转储到
JSON
(在为每个页面合并输出后)。查看下图:

到目前为止,我使用了运行在8核cpu(单机)之上的本地执行器(默认配置)。完成该过程约需40分钟。 我还调整了配置,将
max_threads
更改为
8
parallelism
更改为
8
dag_concurrency
更改为
8
。大约花了20分钟

我希望整个过程在5-10分钟内完成,页数相同。是否可以使用当前的执行器配置


非常感谢。

在运行local executor时,能否添加有关处理任务实际运行方式的更多信息,是一次处理一个函数调用的所有映像,还是该函数一次处理一个映像?如果以后,
dag\u concurrency
要设置dag的默认并发性,
parallelism
控制每个安装的任务实例数,您肯定可以尝试增加它们。你可以在这里参考更多嗨,成志。谢谢你的回复。编辑了问题并添加了dag中正在发生的事情的屏幕截图。请您检查并建议应该做什么。有几件事,1)在获得pdf后,您是否可以通过添加更多下游作业来扩展到更多页面,以同时运行更多页面xxx任务?2) 注意到您有一个黄色圆圈的任务是重试,这是预期的吗?您是否有重试的作业之一的日志1。这只是5页。dag中肯定有超过5页。2.黄色(重试的)是不可取的。在检查日志时,它们按计划运行,但实际上没有运行。因此,这些任务没有日志。但最终他们完成了。这可能是由于concurrency参数造成的。顺便说一句,感谢您回复@chengzhi如果您有更多页面,您肯定可以在下游添加更多页面,并且您需要为该dag增加
并发性
,默认为配置中的
dag\u并发性
,但您可以将其设置为dag级别。当您运行本地executor时,您可以添加更多关于处理任务实际运行方式的信息吗?您是一次处理所有图像还是一次处理一个图像?如果以后,
dag\u concurrency
要设置dag的默认并发性,
parallelism
控制每个安装的任务实例数,您肯定可以尝试增加它们。你可以在这里参考更多嗨,成志。谢谢你的回复。编辑了问题并添加了dag中正在发生的事情的屏幕截图。请您检查并建议应该做什么。有几件事,1)在获得pdf后,您是否可以通过添加更多下游作业来扩展到更多页面,以同时运行更多页面xxx任务?2) 注意到您有一个黄色圆圈的任务是重试,这是预期的吗?您是否有重试的作业之一的日志1。这只是5页。dag中肯定有超过5页。2.黄色(重试的)是不可取的。在检查日志时,它们按计划运行,但实际上没有运行。因此,这些任务没有日志。但最终他们完成了。这可能是由于concurrency参数造成的。顺便说一句,感谢您回复@chengzhi如果您有更多页面,您肯定可以添加更多的as下游,您需要增加该dag的
concurrency
,默认为配置中的
dag\u concurrency
,但您可以将其设置为dag级别。