Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/database/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database 在单个列上使用数据库定位器进行搜索时,可信度是否正确?_Database_Ocr_Kofax - Fatal编程技术网

Database 在单个列上使用数据库定位器进行搜索时,可信度是否正确?

Database 在单个列上使用数据库定位器进行搜索时,可信度是否正确?,database,ocr,kofax,Database,Ocr,Kofax,我已经使用Kofax转换模块3年了,我仍然不确定数据库定位器是如何工作的 我有一个非常简单的数据库,有很多列。 我有一个非常简单的PDF文档,OCR是做的 我想根据单个列的值从数据库中检索一条记录。 因此,如果在文档中找到此列中的值,我希望数据库定位器以100%的置信度返回相应的记录(或者无论OCR置信度是多少) 最后但并非最不重要的一点是,我希望这个置信度与我在数据库定位器的属性(常规选项卡)中设置的“最小置信度”一起工作 但这似乎不可能。 请参阅,我的PDF文档包含一个由OCR读取的值,该值

我已经使用Kofax转换模块3年了,我仍然不确定数据库定位器是如何工作的

我有一个非常简单的数据库,有很多列。 我有一个非常简单的PDF文档,OCR是做的

我想根据单个列的值从数据库中检索一条记录。 因此,如果在文档中找到此列中的值,我希望数据库定位器以100%的置信度返回相应的记录(或者无论OCR置信度是多少)

最后但并非最不重要的一点是,我希望这个置信度与我在数据库定位器的属性(常规选项卡)中设置的“最小置信度”一起工作

但这似乎不可能。
请参阅,我的PDF文档包含一个由OCR读取的值,该值与数据库列100%匹配。
定位器以所谓的100%置信度返回记录,因为我在单个列上设置了搜索掩码

但如果我将最低置信度设置为高于34%的任何值,则不会返回该记录

为什么呢?如何修复它?
我真的需要使用脚本定位器来做我想做的事情吗?这看起来并没有那么复杂?

不直观的置信值 当数据库定位器运行时,它会尝试查找与文档OCR最匹配的记录。您看到的行为的关键是,它首先执行实际的模糊搜索,返回满足最小置信度的记录,然后定位器本身执行附加处理:根据记录是否满足定位器中定义的字段、搜索掩码或区域设置,增加或减少记录的置信度

这种行为的好处是内存和处理效率。核心模糊搜索索引可以快速确定哪些记录满足初始置信阈值,然后数据库定位器只需将这些记录加载到内存中并进行后处理。另一种选择是,需要加载所有记录以进行后处理,以防后处理将置信度推到阈值以上。这将更直观,但效率更低

可能的配置改进 如果您只想搜索这一列,而其他列只是您想要返回的数据,那么请确保该列是唯一索引的列。打开数据库的属性时,会显示带有复选框的字段名。选中的任何字段都会编制索引,并且是定位器将尝试在文档上查找的内容的一部分。如果您检查了一组实际上不在文档中的字段,尤其是如果定位器设置“空字段惩罚”的值为非零值,那么您的可信度可能会降低

使用KSMS时,无法在Project Builder中更改索引列,因为KSMS正在生成和服务索引。而是在KSMS管理中打开数据库的导入设置,并查看复选框中的“要使用的列”部分。如果通过上载文件而不是指向UNC路径来配置数据库,则需要再次上载该文件才能更改索引的列

上下文 对于任何将此作为传统数据库问题阅读的人:KTM中此上下文中的“数据库”从CSV或关系数据库中获取记录,并为其编制索引以进行模糊匹配。这个核心的模糊搜索功能有几种用途,其中一种是数据库定位器

分别提及数据库定位器处理和模糊搜索的文档: 脚本帮助主题“特定列中的数据库查找”显示了如何使用脚本中的模糊搜索(从脚本窗口:帮助>脚本帮助,然后是脚本示例>特定列中的数据库查找),但它也提到模糊搜索本身与数据库定位器处理的其他设置不同。

非直观置信值 当数据库定位器运行时,它会尝试查找与文档OCR最匹配的记录。您看到的行为的关键是,它首先执行实际的模糊搜索,返回满足最小置信度的记录,然后定位器本身执行附加处理:根据记录是否满足定位器中定义的字段、搜索掩码或区域设置,增加或减少记录的置信度

这种行为的好处是内存和处理效率。核心模糊搜索索引可以快速确定哪些记录满足初始置信阈值,然后数据库定位器只需将这些记录加载到内存中并进行后处理。另一种选择是,需要加载所有记录以进行后处理,以防后处理将置信度推到阈值以上。这将更直观,但效率更低

可能的配置改进 如果您只想搜索这一列,而其他列只是您想要返回的数据,那么请确保该列是唯一索引的列。打开数据库的属性时,会显示带有复选框的字段名。选中的任何字段都会编制索引,并且是定位器将尝试在文档上查找的内容的一部分。如果您检查了一组实际上不在文档中的字段,尤其是如果定位器设置“空字段惩罚”的值为非零值,那么您的可信度可能会降低

使用KSMS时,无法在Project Builder中更改索引列,因为KSMS正在生成和服务索引。而是在KSMS管理中打开数据库的导入设置,并查看复选框中的“要使用的列”部分。如果通过上载文件而不是指向UNC路径来配置数据库,则需要再次上载该文件才能更改哪些列
                        First Name   Street   Zip    City  
 --------------------- ------------ -------- ------ ------ 
  Importance (weight)   1.4             1.4    0.2    0.2  
  Confidence            0.95              1    0.2      1  
  weighted Confidence   1.33            1.4   0.04    0.2  
  --                                                       
  TOTAL:                93%                                
(1.33 + 1.4 + 0.04 + 0.2 ) / (1.4 + 1.4 + 0.2 + 0.2) = 0.928125