Azure form recognizer 多重';实例';Azure表单识别器自定义模型中同一页面上相同标签字段的名称?
我想知道在Azure表单识别器自定义模型(带标签)中处理同一标签字段的多个实例时,我是否遗漏了什么?例如,让我们使用以下(非常简化的)文档: 现在,如果我训练一个模型来检测‘Name’、‘DOB’和‘Company’,结果如下:Azure form recognizer 多重';实例';Azure表单识别器自定义模型中同一页面上相同标签字段的名称?,azure-form-recognizer,Azure Form Recognizer,我想知道在Azure表单识别器自定义模型(带标签)中处理同一标签字段的多个实例时,我是否遗漏了什么?例如,让我们使用以下(非常简化的)文档: 现在,如果我训练一个模型来检测‘Name’、‘DOB’和‘Company’,结果如下: { "fields": { "Name": { "value_type": "string", "labe
{
"fields": {
"Name": {
"value_type": "string",
"label_data": null,
"value_data": {
"page_number": 1,
"text": "John R. Smith Ronald Johnson., Esquire",
"bounding_box": [
[
0.57,
4.435
],
[
1.8,
4.435
],
[
1.8,
6.005
],
[
0.57,
6.005
]
],
"field_elements": null
},
"name": "Name",
"value": "John R. Smith Ronald Johnson., Esquire",
"confidence": 1
},
...
如您所见,Azure表单识别器结果JSON中名称
字段的每个“实例”之间没有分隔符。我应该如何培训和/或处理字段结果,使我能够从文档中提取给定字段的每个实例
我尝试的第一件事是标记标签名&文档中某个字段的值,并对其进行培训。例如,
Name:John R.Smith
和Name:Ronald Johnson.,Esquire
就是我在FOTT中标记为本培训示例的Name
字段的内容。然后,我将在Name:
上拆分结果。这在理论上似乎很好,但在实践中,与仅选择字段值并对其进行培训相比,我的精确度非常低。请将它们标记为Name1和Name2,以将它们提取为单独的字段。每个文档模板的每个字段类型都可能有任意多个实例。这不是一个普遍的解决办法。