Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/315.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何将内联注释标记集成到隔离注释中?_Python_Annotations_Gate - Fatal编程技术网

Python 如何将内联注释标记集成到隔离注释中?

Python 如何将内联注释标记集成到隔离注释中?,python,annotations,gate,Python,Annotations,Gate,我正在平台上做一些自定义注释。假设我下面有一个句子要标记 原始文本 麦当劳是“麦当劳。所以“我想要一些麦当劳”就是“我想吃麦当劳 使用GATE,我标记了4种特定的代币(麦当劳和麦当劳)。GATE将根据字符位置自动生成一个XML对峙注释文件,如下所示 <TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>

我正在平台上做一些自定义注释。假设我下面有一个句子要标记

原始文本 麦当劳是“麦当劳。所以“我想要一些麦当劳”就是“我想吃麦当劳

使用GATE,我标记了4种特定的代币(麦当劳麦当劳)。GATE将根据字符位置自动生成一个XML对峙注释文件,如下所示

<TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>'in Chinese. so "I want some <Node id="51"/>McDonald's<Node id="61"/>" is "我想吃<Node id="70"/>麦当劳<Node id="73"/>" in Chinese.</TextWithNodes>
<!-- The default annotation set -->

<AnnotationSet>
<Annotation Id="0" Type="Entity" StartNode="19" EndNode="22">
</Annotation>
<Annotation Id="1" Type="Entity" StartNode="4" EndNode="14">
</Annotation>
<Annotation Id="2" Type="Entity" StartNode="70" EndNode="73">
</Annotation>
<Annotation Id="3" Type="Entity" StartNode="51" EndNode="61">
</Annotation>
</AnnotationSet>

</GateDocument>
麦当劳是麦当劳'用中文。所以“我想要一些麦当劳”是我想吃麦当劳" 用中文。
内联词性标注 接下来,我想在Python上对原始文本进行POS标记。原始文本作为输入,标记器将返回如下标记的句子

<TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>'in Chinese. so "I want some <Node id="51"/>McDonald's<Node id="61"/>" is "我想吃<Node id="70"/>麦当劳<Node id="73"/>" in Chinese.</TextWithNodes>
<!-- The default annotation set -->

<AnnotationSet>
<Annotation Id="0" Type="Entity" StartNode="19" EndNode="22">
</Annotation>
<Annotation Id="1" Type="Entity" StartNode="4" EndNode="14">
</Annotation>
<Annotation Id="2" Type="Entity" StartNode="70" EndNode="73">
</Annotation>
<Annotation Id="3" Type="Entity" StartNode="51" EndNode="61">
</Annotation>
</AnnotationSet>

</GateDocument>
麦当劳的/DT/NN是/BE'麦当劳'/NN in/PP Chinese/NN./PW

问题是,我想将此词性标记结果添加到浇口隔离区注释文件中,该文件包括标记有开始偏移量和结束偏移量的每个词性标记。例如

<Annotation Id="4" POS="DT" StartNode="0" EndNode="2">
<Annotation Id="5" POS="NN" StartNode="4" EndNode="14">
…
</Annotation>
我之所以坚持使用隔离注释而不是内联注释,是因为我仍然希望使用GATE来方便注释间任务(手动标记“Entity”标记),但不幸的是,中文词性标记器无法在GATE上实现。而且,不希望先在GATE上进行词性标记,然后在GATE上进行手动注释,因为不同的词性标记器会给出不同的词性标记结果,这可能会弄乱原始文本的偏移量。 请给出一些提示,如何将内联词性标记结果集成到XML防区外批注中,或者提供一些有用的工具,用于在Python上修改基于字符位置的防区外批注。

请查看TaggerFramework GATE插件:。可以使用此插件为GATE包装您的标记器。另外,中文Plugin可能会提供一些帮助:查看TaggerFramework GATE插件:。可以使用此插件包装您的tagger for GATE。此外,中文插件可能会提供一些帮助: