Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/320.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用BRAT为OpenNlp创建和训练模型?_Java_Opennlp_Brat - Fatal编程技术网

Java 使用BRAT为OpenNlp创建和训练模型?

Java 使用BRAT为OpenNlp创建和训练模型?,java,opennlp,brat,Java,Opennlp,Brat,我可能需要为OpenNLP创建一个自定义训练集,这将需要我手动注释许多条目 为了让事情变得更简单,GUI解决方案可能是最好的主意(手动编写注释标签,这并不酷),我刚刚发现了BRAT,它看起来正是我所需要的 BRAT可以导出带注释的文件(.ann),但我在中找不到对此文件类型的任何引用,我不确定这是否可行 我想做的是从BRAT导出这个带注释的文件,并使用它来训练OpenNLP的模型,我并不在乎是否可以使用代码或CLI来完成 有人能给我指出正确的方向吗?OpenNLP对BRAT格式提供了本机支持,用

我可能需要为OpenNLP创建一个自定义训练集,这将需要我手动注释许多条目

为了让事情变得更简单,GUI解决方案可能是最好的主意(手动编写注释标签,这并不酷),我刚刚发现了BRAT,它看起来正是我所需要的

BRAT可以导出带注释的文件(.ann),但我在中找不到对此文件类型的任何引用,我不确定这是否可行

我想做的是从BRAT导出这个带注释的文件,并使用它来训练OpenNLP的模型,我并不在乎是否可以使用代码或CLI来完成


有人能给我指出正确的方向吗?

OpenNLP对BRAT格式提供了本机支持,用于名称查找器的培训和评估。目前不支持其他组件。添加对其他组件的支持可能并不困难,如果您感兴趣,您应该在opennlp开发列表中请求它

CLI可用于使用brat训练模型,以下命令将显示其用法:

  • bin/opennlp TokenNameFinderTrainer.brat
以下参数是训练模型所必需的:

  • bratDataDir这应该指向包含.ann和.txt文件的文件夹
  • annotationConfig必须指向brat用于注释项目的配置文件
  • 使用文本文档的语言(如英语)
  • model创建的模型文件的名称
名称查找器需要将其输入切割成句子和标记。默认情况下,它假定每行一句话,并应用空白标记。可以使用ruleBasedTokenizer或tokenizerModel参数调整此行为。另外,可以通过sentenceDetector模型参数使用自定义的句子检测器模型

为了评估您的模型,交叉验证和评估工具可以通过在其名称后面附加.brat来以类似的方式使用

  • bin/opennlp TokenNameFinderCrossValidator.brat
  • bin/opennlp标记名finderevaluator.brat
要加快注释项目的速度,可以使用opennlp brat注释器。它可以加载名称查找器模型,并与BRAT集成以自动为文档添加注释。这可以加快注释的速度。您可以在opennlp沙箱中找到该组件