Python 如何将内联注释标记集成到隔离注释中?
我正在平台上做一些自定义注释。假设我下面有一个句子要标记 原始文本 麦当劳是“麦当劳中文为strong>。所以“我想要一些麦当劳”就是“我想吃麦当劳中文为strong> 使用GATE,我标记了4种特定的代币(麦当劳和麦当劳带有“实体”标记的上述句子的strong>)。GATE将根据字符位置自动生成一个XML对峙注释文件,如下所示Python 如何将内联注释标记集成到隔离注释中?,python,annotations,gate,Python,Annotations,Gate,我正在平台上做一些自定义注释。假设我下面有一个句子要标记 原始文本 麦当劳是“麦当劳。所以“我想要一些麦当劳”就是“我想吃麦当劳 使用GATE,我标记了4种特定的代币(麦当劳和麦当劳)。GATE将根据字符位置自动生成一个XML对峙注释文件,如下所示 <TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>
<TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>'in Chinese. so "I want some <Node id="51"/>McDonald's<Node id="61"/>" is "我想吃<Node id="70"/>麦当劳<Node id="73"/>" in Chinese.</TextWithNodes>
<!-- The default annotation set -->
<AnnotationSet>
<Annotation Id="0" Type="Entity" StartNode="19" EndNode="22">
</Annotation>
<Annotation Id="1" Type="Entity" StartNode="4" EndNode="14">
</Annotation>
<Annotation Id="2" Type="Entity" StartNode="70" EndNode="73">
</Annotation>
<Annotation Id="3" Type="Entity" StartNode="51" EndNode="61">
</Annotation>
</AnnotationSet>
</GateDocument>
麦当劳是麦当劳'用中文。所以“我想要一些麦当劳”是我想吃麦当劳" 用中文。
内联词性标注
接下来,我想在Python上对原始文本进行POS标记。原始文本作为输入,标记器将返回如下标记的句子
<TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>'in Chinese. so "I want some <Node id="51"/>McDonald's<Node id="61"/>" is "我想吃<Node id="70"/>麦当劳<Node id="73"/>" in Chinese.</TextWithNodes>
<!-- The default annotation set -->
<AnnotationSet>
<Annotation Id="0" Type="Entity" StartNode="19" EndNode="22">
</Annotation>
<Annotation Id="1" Type="Entity" StartNode="4" EndNode="14">
</Annotation>
<Annotation Id="2" Type="Entity" StartNode="70" EndNode="73">
</Annotation>
<Annotation Id="3" Type="Entity" StartNode="51" EndNode="61">
</Annotation>
</AnnotationSet>
</GateDocument>
麦当劳的/DT/NN是/BE'麦当劳'/NN in/PP Chinese/NN./PW
问题是,我想将此词性标记结果添加到浇口隔离区注释文件中,该文件包括标记有开始偏移量和结束偏移量的每个词性标记。例如
<Annotation Id="4" POS="DT" StartNode="0" EndNode="2">
<Annotation Id="5" POS="NN" StartNode="4" EndNode="14">
…
</Annotation>
…
我之所以坚持使用隔离注释而不是内联注释,是因为我仍然希望使用GATE来方便注释间任务(手动标记“Entity”标记),但不幸的是,中文词性标记器无法在GATE上实现。而且,不希望先在GATE上进行词性标记,然后在GATE上进行手动注释,因为不同的词性标记器会给出不同的词性标记结果,这可能会弄乱原始文本的偏移量。
请给出一些提示,如何将内联词性标记结果集成到XML防区外批注中,或者提供一些有用的工具,用于在Python上修改基于字符位置的防区外批注。请查看TaggerFramework GATE插件:。可以使用此插件为GATE包装您的标记器。另外,中文Plugin可能会提供一些帮助:查看TaggerFramework GATE插件:。可以使用此插件包装您的tagger for GATE。此外,中文插件可能会提供一些帮助: