转换XML以用作命名实体识别(NER)的训练集
我想利用XML形式的结构化信息为斯坦福NLP软件包培训CRF模型。XML看起来像:转换XML以用作命名实体识别(NER)的训练集,xml,nlp,stanford-nlp,named-entity-recognition,crf,Xml,Nlp,Stanford Nlp,Named Entity Recognition,Crf,我想利用XML形式的结构化信息为斯坦福NLP软件包培训CRF模型。XML看起来像: <dates> <date>Advance Access publication on <month>July</month> <day>11</day>, <year>2007</year> </date> </dates> 去拿我的代币。
<dates>
<date>Advance Access publication on
<month>July</month>
<day>11</day>,
<year>2007</year>
</date>
</dates>
去拿我的代币。但是,我如何利用XML封装来自动用适当的类标记我的令牌呢
斯坦福NLP包中是否有这样的支持/过程,或者我应该着手手工编写令牌文件(例如使用XSLT) 我不知道这种XML格式。如果这是一个通用标准,您可能会找到一个转换器—您希望将其转换为“IO”或“IOB”编码,这就是Stanford NER的工作原理。否则,您将不得不手动执行 这里有一个IO编码的示例:每行有一个单词,每个单词都有一个对应的NER标记。此标签为“O”(无标签)或某些特定的NER标签。请注意,句子之间用空行分隔
I O
complained O
to O
Microsoft ORGANIZATION
about O
Bill PERSON
Gates PERSON
. O
They O
told O
me O
to O
see O
the O
mayor O
of O
New LOCATION
York LOCATION
. O
I O
complained O
to O
Microsoft ORGANIZATION
about O
Bill PERSON
Gates PERSON
. O
They O
told O
me O
to O
see O
the O
mayor O
of O
New LOCATION
York LOCATION
. O