Hadoop 清洁AWS EMR,以便重复使用

Hadoop 清洁AWS EMR,以便重复使用,hadoop,amazon-web-services,emr,Hadoop,Amazon Web Services,Emr,我在AWS EMR上执行了几个任务,这些任务不共享数据,我希望使用相同的EMR一个接一个地执行它们。有没有办法将正在运行的EMR清理回其初始状态(删除配置单元表、清理所有HDFS文件等)以避免数据冲突 出于以下几个原因,我希望重用EMR: 创建新的电子病历可能需要5-10分钟 我的任务相对较短,20-25分钟 一旦创建了电子病历,您就已经支付了整小时的费用 我们没有找到一个“快速、干净”的API来实现这种行为。相反,我们整合了一种简单的工作方法,以保证能够清理所有数据 我们使用特定的数据库,而

我在AWS EMR上执行了几个任务,这些任务不共享数据,我希望使用相同的EMR一个接一个地执行它们。有没有办法将正在运行的EMR清理回其初始状态(删除配置单元表、清理所有HDFS文件等)以避免数据冲突

出于以下几个原因,我希望重用EMR:

  • 创建新的电子病历可能需要5-10分钟
  • 我的任务相对较短,20-25分钟
  • 一旦创建了电子病历,您就已经支付了整小时的费用
  • 我们没有找到一个“快速、干净”的API来实现这种行为。相反,我们整合了一种简单的工作方法,以保证能够清理所有数据

    • 我们使用特定的数据库,而不是默认的数据库
    • 我们将所有内部数据文件放在HDFS中的特定位置下

    因此,每次任务启动时,它都会首先删除这个特定的数据库(如果存在),然后重新创建它,并递归地删除HDFS中特定位置下的所有数据。

    你明白了吗?不完全清楚,但我添加了一个解决此问题的方法。