Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop Oozie基于文件的协调器_Hadoop_Oozie_Oozie Coordinator - Fatal编程技术网

Hadoop Oozie基于文件的协调器

Hadoop Oozie基于文件的协调器,hadoop,oozie,oozie-coordinator,Hadoop,Oozie,Oozie Coordinator,我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是,只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调员应等待文件创建。 我已尝试使用以下代码: <coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1"> <dat

我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是,只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调员应等待文件创建。 我已尝试使用以下代码:

<coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="60" initial-instance="2009-01-01T00:00Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-23)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
    </workflow>
  </action>     
</coordinator-app>

hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}
触发器.dat
${coord:current(-23)}
${coord:current(0)}
hdfs://localhost:9000/tmp/workflows
我开始了Oozie的工作,现在正处于等待状态。我已经执行了脚本,该脚本将在HDFS中指定的目录结构中创建文件(trigger.dat)(hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR})。 文件已创建,仍处于等待状态


有人能帮我吗?

我已经更改了开始和结束日期,现在可以用了

coordinator.xml的工作原理是:

<coordinator-app name="MY_APP" frequency="60" start="2015-01-12T05:00Z" end="2015-01-12T08:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="30" initial-instance="2015-01-12T04:02Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-1)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
      <configuration>
        <property>
          <name>property1</name>
          <value>${coord:dataIn('coordInput1')}</value>
        </property>
      </configuration>
    </workflow>
  </action>     
</coordinator-app>

hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}
触发器.dat
${coord:current(-1)}
${coord:current(0)}
hdfs://localhost:9000/tmp/workflows
物业1
${coord:dataIn('coordInput1')}
我观察到的几点是:

  • 预期的目录结构基于我们定义的数据集的initial instance=“2015-01-12T04:02Z”和frequency=“30”

  • 如果不在下面声明,Oozie将不会考虑属性数据集

    
    物业1
    ${coord:dataIn('coordInput1')}
    

  • Oozie始终考虑GMT/UTC时区。在安排任何工作流时,请记住GMT并相应地安排

  • 在创建目录之前,协调器作业将处于运行状态,但工作流作业将处于等待状态


  • 嗨,我觉得你的协调员工作开始时间有问题。从本质上讲,即使触发器文件存在与否,协调器作业也应该处于运行状态。从技术上讲,这是一个不好的结束时间。感谢您的评论@satha/@patrungel,我已经相应地修改了它,它现在正在工作:)