Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
转换XML以用作命名实体识别(NER)的训练集_Xml_Nlp_Stanford Nlp_Named Entity Recognition_Crf - Fatal编程技术网

转换XML以用作命名实体识别(NER)的训练集

转换XML以用作命名实体识别(NER)的训练集,xml,nlp,stanford-nlp,named-entity-recognition,crf,Xml,Nlp,Stanford Nlp,Named Entity Recognition,Crf,我想利用XML形式的结构化信息为斯坦福NLP软件包培训CRF模型。XML看起来像: <dates> <date>Advance Access publication on <month>July</month> <day>11</day>, <year>2007</year> </date> </dates> 去拿我的代币。

我想利用XML形式的结构化信息为斯坦福NLP软件包培训CRF模型。XML看起来像:

<dates>
   <date>Advance Access publication on 
      <month>July</month>
      <day>11</day>, 
      <year>2007</year>
   </date>
</dates>
去拿我的代币。但是,我如何利用XML封装来自动用适当的类标记我的令牌呢


斯坦福NLP包中是否有这样的支持/过程,或者我应该着手手工编写令牌文件(例如使用XSLT)

我不知道这种XML格式。如果这是一个通用标准,您可能会找到一个转换器—您希望将其转换为“IO”或“IOB”编码,这就是Stanford NER的工作原理。否则,您将不得不手动执行

这里有一个IO编码的示例:每行有一个单词,每个单词都有一个对应的NER标记。此标签为“O”(无标签)或某些特定的NER标签。请注意,句子之间用空行分隔

I   O
complained  O
to  O
Microsoft   ORGANIZATION
about   O
Bill    PERSON
Gates   PERSON
.   O

They    O
told    O
me  O
to  O
see O
the O
mayor   O
of  O
New LOCATION
York    LOCATION
.   O
I   O
complained  O
to  O
Microsoft   ORGANIZATION
about   O
Bill    PERSON
Gates   PERSON
.   O

They    O
told    O
me  O
to  O
see O
the O
mayor   O
of  O
New LOCATION
York    LOCATION
.   O