Nlp 哪些标记语言通常用于注释信息抽取语料库

Nlp 哪些标记语言通常用于注释信息抽取语料库,nlp,information-extraction,Nlp,Information Extraction,我正在构建一个用于信息提取的语料库,用于提取特定类型的信息,并试图确定注释实体的最佳方式。我发现IEER语料库为此使用SGML标记元素ENAMEX,NUMEX,以及TIMEX标记(如下所述:)。由于本文档是在1997年编写的,我猜想使用这种基于SGML的方法已经过时了,必须有更好的方法来实现这一点,例如使用OWL、RDF或XML。是否有更新的行业标准用于注释信息抽取语料库?我想说,该领域没有足够的标准化,但也不清楚是否需要单一格式。我的建议是查看选项并选择最适合您的数据和您正在编码的信息的选项

我正在构建一个用于信息提取的语料库,用于提取特定类型的信息,并试图确定注释实体的最佳方式。我发现IEER语料库为此使用SGML标记元素
ENAMEX
NUMEX
,以及
TIMEX
标记(如下所述:)。由于本文档是在1997年编写的,我猜想使用这种基于SGML的方法已经过时了,必须有更好的方法来实现这一点,例如使用OWL、RDF或XML。是否有更新的行业标准用于注释信息抽取语料库?

我想说,该领域没有足够的标准化,但也不清楚是否需要单一格式。我的建议是查看选项并选择最适合您的数据和您正在编码的信息的选项

是注释语言资源方面的新经典。它有自己的对峙注释标准。还有一个工具也有自己的基于XML的标准。基于UIMA的工具通常使用CAS标准(但文档不好)。你也应该看看当地人

如果您编码的信息足够简单,比如命名实体类型,您甚至可以选择表格格式,例如

如果这些都不符合您的要求,只需实现符合它们的任何东西。

NLTK手册()说明:

最广泛的文件表示法使用IOB标记

并继续解释:

[…]每个标记都使用三个特殊块标记中的一个标记,I(内部)、O(外部)或B(开始)。[…]B和I标记以块类型作为后缀,例如B-NP、I-NP

We PRP B-NP
saw VBD O
the DT B-NP
little JJ I-NP
yellow JJ I-NP
dog NN I-NP
维基百科有一个页面

斯坦福NLP也支持它


spaCy使用的是略有不同的格式。

我将使用XML