Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Behemoth在Hadoop上运行UIMA作业_Hadoop_Uima - Fatal编程技术网

使用Behemoth在Hadoop上运行UIMA作业

使用Behemoth在Hadoop上运行UIMA作业,hadoop,uima,Hadoop,Uima,我有一个功能齐全的UIMA工作,可以做简单的注释。我可以通过本地CAS GUI成功启动它 我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人做过这个?作业成功运行,但在hadoop输出目录中;UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成,并将其输入数据复制到最终输出目录 有人能告诉我这里可能发生了什么,我们是否需要在UIMA代码中进行其他更改 谢谢尝试以下场景: 1) 格雷瑞特庞然大物语料库 2) 在庞然大物语料库上运行

我有一个功能齐全的UIMA工作,可以做简单的注释。我可以通过本地CAS GUI成功启动它

我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人做过这个?作业成功运行,但在hadoop输出目录中;UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成,并将其输入数据复制到最终输出目录

有人能告诉我这里可能发生了什么,我们是否需要在UIMA代码中进行其他更改

谢谢

尝试以下场景:

1) 格雷瑞特庞然大物语料库

2) 在庞然大物语料库上运行Tika作业=>Tika语料库

3) 在Tika语料库上运行UIMA作业=>UIMA语料库

4) 使用-a选项通过Behemoth的语料库阅读器查看UIMA输出语料库-它显示您在/hadoop/conf中的Behemoth-site.xml中定义的UIMA注释

但问题是,我不知道如何从庞然大物(UIMA)语料库中提取已建立的注释


我还有CAS Consumer(在PEAR文件中),它应该在本地文件系统(不是在HDFS中)上向文件写入UIMA注释,但我在文件系统中没有找到这个文件((

以下是我为一个小管道编写的步骤:

  • 将UIMA管道导出为jar(your pipeline.jar)
  • 复制到HDFS
  • 生成庞然大物语料库(**记住下面的所有路径都是hdfs路径**) hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/ hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver-i/user/blah/-o/user/blah/
  • 使用管道处理 hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver/user/blah//user/blah//apps/Your-pipeline.pear
  • 列表注释: hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/ hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader-i-a/user/blah/
  • 将注释转换为文本: hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/ hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter-a-i/user/blah/-o/user/blah/

你明白了吗?我正在使用Hadoop,希望使用一些为UIMA设计的代码。