Hadoop Ozzie工作流示例

Hadoop Ozzie工作流示例,hadoop,hbase,hadoop-streaming,oozie,Hadoop,Hbase,Hadoop Streaming,Oozie,我很难理解奥齐。我已经让它运行了,但是我发现的文档和示例并不清楚。谁能帮我举个例子吗 我有4个或5个hadoop流媒体作业,每个作业我都想删除任何现有的输出目录和日志,例如 hadoop fs-rm-r/user/vm/video output/tmp/logs/vm/logs/ 运行作业,例如 hadoop jar ~/run/hadoop-*streaming*.jar -files videoapp -cacheArchive hdfs://localhost:54310/user/vm

我很难理解奥齐。我已经让它运行了,但是我发现的文档和示例并不清楚。谁能帮我举个例子吗

我有4个或5个hadoop流媒体作业,每个作业我都想删除任何现有的输出目录和日志,例如

hadoop fs-rm-r/user/vm/video output/tmp/logs/vm/logs/

运行作业,例如

hadoop jar ~/run/hadoop-*streaming*.jar -files videoapp 
-cacheArchive hdfs://localhost:54310/user/vm/input/video/video.tar.gz#video 
-cacheFile hdfs://localhost:54310/user/vm/vqatsAx#vqatsAx 
-cacheFile hdfs://localhost:54310/user/vm/ffmpeg#ffmpeg 
-input /user/vm/input/video -output /user/vm/video-output 
-mapper videoapp/video.py -cmdenv VIDEO_DIR=video

那么,当这项工作完成后,我该如何检查:创建了零件r-0000?运行下一个零件。这些作业将从HBase进行读写。我想要一个基本的大纲和一些要点。蒂娅

要删除HDFS目录或日志,可以使用Oozie HDFS操作。这里是oozie文档和示例。或者下面给出一个例子。您可以在workflow.xml中配置所需的各种操作

<workflow-app name="sample-wf" xmlns="uri:oozie:workflow:0.1">
    ...
    <action name="hdfscommands">
         <fs>
            <delete path='hdfs://foo:9000/usr/tucu/temp-data'/>
            <mkdir path='archives/${wf:id()}'/>
            <move source='${jobInput}' target='archives/${wf:id()}/processed-input'/>
            <chmod path='${jobOutput}' permissions='-rwxrw-rw-' dir-files='true'/>
        </fs>
        <ok to="myotherjob"/>
        <error to="errorcleanup"/>
    </action>
    ...
</workflow-app>