使用Behemoth在Hadoop上运行UIMA作业
我有一个功能齐全的UIMA工作,可以做简单的注释。我可以通过本地CAS GUI成功启动它 我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人做过这个?作业成功运行,但在hadoop输出目录中;UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成,并将其输入数据复制到最终输出目录 有人能告诉我这里可能发生了什么,我们是否需要在UIMA代码中进行其他更改 谢谢尝试以下场景: 1) 格雷瑞特庞然大物语料库 2) 在庞然大物语料库上运行Tika作业=>Tika语料库 3) 在Tika语料库上运行UIMA作业=>UIMA语料库 4) 使用-a选项通过Behemoth的语料库阅读器查看UIMA输出语料库-它显示您在/hadoop/conf中的Behemoth-site.xml中定义的UIMA注释 但问题是,我不知道如何从庞然大物(UIMA)语料库中提取已建立的注释使用Behemoth在Hadoop上运行UIMA作业,hadoop,uima,Hadoop,Uima,我有一个功能齐全的UIMA工作,可以做简单的注释。我可以通过本地CAS GUI成功启动它 我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人做过这个?作业成功运行,但在hadoop输出目录中;UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成,并将其输入数据复制到最终输出目录 有人能告诉我这里可能发生了什么,我们是否需要在UIMA代码中进行其他更改 谢谢尝试以下场景: 1) 格雷瑞特庞然大物语料库 2) 在庞然大物语料库上运行
我还有CAS Consumer(在PEAR文件中),它应该在本地文件系统(不是在HDFS中)上向文件写入UIMA注释,但我在文件系统中没有找到这个文件((以下是我为一个小管道编写的步骤:
- 将UIMA管道导出为jar(your pipeline.jar)
- 复制到HDFS
- 生成庞然大物语料库(**记住下面的所有路径都是hdfs路径**) hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/ hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver-i/user/blah/-o/user/blah/
- 使用管道处理 hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver/user/blah//user/blah//apps/Your-pipeline.pear
- 列表注释: hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/ hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader-i-a/user/blah/
- 将注释转换为文本: hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/ hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter-a-i/user/blah/-o/user/blah/