使用Behemoth在Hadoop上运行UIMA作业_Hadoop_Uima

使用Behemoth在Hadoop上运行UIMA作业

hadoop

使用Behemoth在Hadoop上运行UIMA作业,hadoop,uima,Hadoop,Uima,我有一个功能齐全的UIMA工作，可以做简单的注释。我可以通过本地CAS GUI成功启动它我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人做过这个？作业成功运行，但在hadoop输出目录中；UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成，并将其输入数据复制到最终输出目录有人能告诉我这里可能发生了什么，我们是否需要在UIMA代码中进行其他更改谢谢尝试以下场景： 1）格雷瑞特庞然大物语料库 2）在庞然大物语料库上运行

我有一个功能齐全的UIMA工作，可以做简单的注释。我可以通过本地CAS GUI成功启动它

我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人做过这个？作业成功运行，但在hadoop输出目录中；UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成，并将其输入数据复制到最终输出目录

有人能告诉我这里可能发生了什么，我们是否需要在UIMA代码中进行其他更改

谢谢

尝试以下场景：

1）格雷瑞特庞然大物语料库

2）在庞然大物语料库上运行Tika作业=>Tika语料库

3）在Tika语料库上运行UIMA作业=>UIMA语料库

4）使用-a选项通过Behemoth的语料库阅读器查看UIMA输出语料库-它显示您在/hadoop/conf中的Behemoth-site.xml中定义的UIMA注释

但问题是，我不知道如何从庞然大物（UIMA）语料库中提取已建立的注释

我还有CAS Consumer（在PEAR文件中），它应该在本地文件系统（不是在HDFS中）上向文件写入UIMA注释，但我在文件系统中没有找到这个文件（（

以下是我为一个小管道编写的步骤：

将UIMA管道导出为jar（your pipeline.jar）
复制到HDFS
生成庞然大物语料库（**记住下面的所有路径都是hdfs路径**） hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/ hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver-i/user/blah/-o/user/blah/
使用管道处理 hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver/user/blah//user/blah//apps/Your-pipeline.pear
列表注释： hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/ hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader-i-a/user/blah/
将注释转换为文本： hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/ hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter-a-i/user/blah/-o/user/blah/

你明白了吗？我正在使用Hadoop，希望使用一些为UIMA设计的代码。