Airflow S3删除&;HDFS到S3拷贝
作为我的Airflow S3删除&;HDFS到S3拷贝,airflow,Airflow,作为我的Spark管道的一部分,我必须在EMR/S3上执行以下任务: 删除:(递归)删除给定S3存储桶下的所有文件/目录 复制:将目录(子目录和文件)的内容复制到给定的S3存储桶 根据我目前的知识,气流没有为这些任务提供操作员s/hooks。因此,我计划执行以下措施: 删除:扩展以添加对指定的s3存储桶执行aws s3 rm的功能 复制:用于执行hadoop distcp 我的问题是: 我认为我打算执行的任务相当原始。这些功能是否已由气流提供 如果没有,有没有比我计划做的更好的方法 我
Spark
管道的一部分,我必须在EMR
/S3
上执行以下任务:
S3存储桶下的所有文件/目录
S3存储桶
根据我目前的知识,
气流
没有为这些任务提供操作员
s/hook
s。因此,我计划执行以下措施:
s3存储桶执行aws s3 rm
的功能
我的问题是:
- 我认为我打算执行的任务相当原始。这些功能是否已由
气流
提供
- 如果没有,有没有比我计划做的更好的方法
我正在使用:
[Airflow 1.9.0
](将升级到Python 3.6.6
一次)Airflow 1.10
EMR 5.13.0
- 那么,
删除
是一个基本操作,但不是hadoop distcp
。回答您的问题: