Nlp 从初始注释引擎导出带有标签的文本序列_Nlp_Annotations

Nlp 从初始注释引擎导出带有标签的文本序列

nlp

Nlp 从初始注释引擎导出带有标签的文本序列,nlp,annotations,Nlp,Annotations,我正在使用INCEpTION（）对我的法律文档进行注释。是否有一种方法可以代替《盗梦空间》中提供的任何导出格式，导出我标记的原始文本序列及其标签名称我这里的用例是创建一个数据集，其中我将文本中的句子注释为文本序列（对于法律领域，句子边界检测没有很好地解决），并为每个句子添加一个自定义标记理想的导出格式是，在txt文件的每一行上：文本标签我希望实现的数据格式与您在这里看到的类似：假设您在INCEpTION中配置了一个名为Segment的跨层（转换为内部名称webanno.custom.Se

我正在使用INCEpTION（）对我的法律文档进行注释。是否有一种方法可以代替《盗梦空间》中提供的任何导出格式，导出我标记的原始文本序列及其标签名称

我这里的用例是创建一个数据集，其中我将文本中的句子注释为文本序列（对于法律领域，句子边界检测没有很好地解决），并为每个句子添加一个自定义标记

理想的导出格式是，在txt文件的每一行上：文本标签

我希望实现的数据格式与您在这里看到的类似：

假设您在INCEpTION中配置了一个名为

Segment

的跨层（转换为内部名称

webanno.custom.Segment

）您已经在《盗梦空间》的注释页面上，将名为

my text.txt的文档中的几个句子注释为Segment
。让我们进一步假设段
层被配置为具有名为标签
的字符串功能，您可以在其中输入值，例如事实
，决策比率
，以及先例

现在，您可以通过UIMA CAS XMI（XML 1.0）中注释页面操作栏中的导出按钮导出单个注释文档。您得到的是一个ZIP文件，其中包含两个文件：

包含注释文本的my text.xmi
文件
包含注释方案的TypeSystem.xml
文件

假设您已经安装了Python3，现在就可以安装一个库，它可以帮助您使用上面的两个文件
pip install dkpro-cassis

现在，您可以使用Cassis编写一个简短的Python脚本，该脚本读取注释并以所需的格式输出它们：
from cassis import *

with open('TypeSystem.xml', 'rb') as f:
  typesystem = load_typesystem(f)

with open('my-text.xmi', 'rb') as f:
  doc = load_cas_from_xmi(f, typesystem=typesystem)

with open('output.txt', 'w') as f:
  for segment in doc.select('webanno.custom.Segment'):
    f.write(f"{segment.get_covered_text()}\t{segment.label}\n")

在INCEpTION网站的一节中有一个类似的准备运行的示例
免责声明：我正在从事INCEpTION项目