Nlp 从初始注释引擎导出带有标签的文本序列

Nlp 从初始注释引擎导出带有标签的文本序列,nlp,annotations,Nlp,Annotations,我正在使用INCEpTION()对我的法律文档进行注释。是否有一种方法可以代替《盗梦空间》中提供的任何导出格式,导出我标记的原始文本序列及其标签名称 我这里的用例是创建一个数据集,其中我将文本中的句子注释为文本序列(对于法律领域,句子边界检测没有很好地解决),并为每个句子添加一个自定义标记 理想的导出格式是,在txt文件的每一行上: 文本标签 我希望实现的数据格式与您在这里看到的类似:假设您在INCEpTION中配置了一个名为Segment的跨层(转换为内部名称webanno.custom.Se

我正在使用INCEpTION()对我的法律文档进行注释。是否有一种方法可以代替《盗梦空间》中提供的任何导出格式,导出我标记的原始文本序列及其标签名称

我这里的用例是创建一个数据集,其中我将文本中的句子注释为文本序列(对于法律领域,句子边界检测没有很好地解决),并为每个句子添加一个自定义标记

理想的导出格式是,在txt文件的每一行上: 文本标签


我希望实现的数据格式与您在这里看到的类似:

假设您在INCEpTION中配置了一个名为
Segment
的跨层(转换为内部名称
webanno.custom.Segment
)您已经在《盗梦空间》的注释页面上,将名为
my text.txt的文档中的几个句子注释为
Segment
。让我们进一步假设
层被配置为具有名为
标签
的字符串功能,您可以在其中输入值,例如
事实
决策比率
,以及
先例

现在,您可以通过UIMA CAS XMI(XML 1.0)中注释页面操作栏中的导出按钮导出单个注释文档。您得到的是一个ZIP文件,其中包含两个文件:

  • 包含注释文本的
    my text.xmi
    文件
  • 包含注释方案的
    TypeSystem.xml
    文件
假设您已经安装了Python3,现在就可以安装一个库,它可以帮助您使用上面的两个文件

pip install dkpro-cassis
现在,您可以使用Cassis编写一个简短的Python脚本,该脚本读取注释并以所需的格式输出它们:

from cassis import *

with open('TypeSystem.xml', 'rb') as f:
  typesystem = load_typesystem(f)

with open('my-text.xmi', 'rb') as f:
  doc = load_cas_from_xmi(f, typesystem=typesystem)

with open('output.txt', 'w') as f:
  for segment in doc.select('webanno.custom.Segment'):
    f.write(f"{segment.get_covered_text()}\t{segment.label}\n")
在INCEpTION网站的一节中有一个类似的准备运行的示例

免责声明:我正在从事INCEpTION项目