Database 在单个列上使用数据库定位器进行搜索时,可信度是否正确?
我已经使用Kofax转换模块3年了,我仍然不确定数据库定位器是如何工作的 我有一个非常简单的数据库,有很多列。 我有一个非常简单的PDF文档,OCR是做的 我想根据单个列的值从数据库中检索一条记录。 因此,如果在文档中找到此列中的值,我希望数据库定位器以100%的置信度返回相应的记录(或者无论OCR置信度是多少) 最后但并非最不重要的一点是,我希望这个置信度与我在数据库定位器的属性(常规选项卡)中设置的“最小置信度”一起工作 但这似乎不可能。Database 在单个列上使用数据库定位器进行搜索时,可信度是否正确?,database,ocr,kofax,Database,Ocr,Kofax,我已经使用Kofax转换模块3年了,我仍然不确定数据库定位器是如何工作的 我有一个非常简单的数据库,有很多列。 我有一个非常简单的PDF文档,OCR是做的 我想根据单个列的值从数据库中检索一条记录。 因此,如果在文档中找到此列中的值,我希望数据库定位器以100%的置信度返回相应的记录(或者无论OCR置信度是多少) 最后但并非最不重要的一点是,我希望这个置信度与我在数据库定位器的属性(常规选项卡)中设置的“最小置信度”一起工作 但这似乎不可能。 请参阅,我的PDF文档包含一个由OCR读取的值,该值
请参阅,我的PDF文档包含一个由OCR读取的值,该值与数据库列100%匹配。
定位器以所谓的100%置信度返回记录,因为我在单个列上设置了搜索掩码 但如果我将最低置信度设置为高于34%的任何值,则不会返回该记录 为什么呢?如何修复它?
我真的需要使用脚本定位器来做我想做的事情吗?这看起来并没有那么复杂?不直观的置信值 当数据库定位器运行时,它会尝试查找与文档OCR最匹配的记录。您看到的行为的关键是,它首先执行实际的模糊搜索,返回满足最小置信度的记录,然后定位器本身执行附加处理:根据记录是否满足定位器中定义的字段、搜索掩码或区域设置,增加或减少记录的置信度 这种行为的好处是内存和处理效率。核心模糊搜索索引可以快速确定哪些记录满足初始置信阈值,然后数据库定位器只需将这些记录加载到内存中并进行后处理。另一种选择是,需要加载所有记录以进行后处理,以防后处理将置信度推到阈值以上。这将更直观,但效率更低 可能的配置改进 如果您只想搜索这一列,而其他列只是您想要返回的数据,那么请确保该列是唯一索引的列。打开数据库的属性时,会显示带有复选框的字段名。选中的任何字段都会编制索引,并且是定位器将尝试在文档上查找的内容的一部分。如果您检查了一组实际上不在文档中的字段,尤其是如果定位器设置“空字段惩罚”的值为非零值,那么您的可信度可能会降低 使用KSMS时,无法在Project Builder中更改索引列,因为KSMS正在生成和服务索引。而是在KSMS管理中打开数据库的导入设置,并查看复选框中的“要使用的列”部分。如果通过上载文件而不是指向UNC路径来配置数据库,则需要再次上载该文件才能更改索引的列 上下文 对于任何将此作为传统数据库问题阅读的人:KTM中此上下文中的“数据库”从CSV或关系数据库中获取记录,并为其编制索引以进行模糊匹配。这个核心的模糊搜索功能有几种用途,其中一种是数据库定位器 分别提及数据库定位器处理和模糊搜索的文档: 脚本帮助主题“特定列中的数据库查找”显示了如何使用脚本中的模糊搜索(从脚本窗口:帮助>脚本帮助,然后是脚本示例>特定列中的数据库查找),但它也提到模糊搜索本身与数据库定位器处理的其他设置不同。非直观置信值 当数据库定位器运行时,它会尝试查找与文档OCR最匹配的记录。您看到的行为的关键是,它首先执行实际的模糊搜索,返回满足最小置信度的记录,然后定位器本身执行附加处理:根据记录是否满足定位器中定义的字段、搜索掩码或区域设置,增加或减少记录的置信度 这种行为的好处是内存和处理效率。核心模糊搜索索引可以快速确定哪些记录满足初始置信阈值,然后数据库定位器只需将这些记录加载到内存中并进行后处理。另一种选择是,需要加载所有记录以进行后处理,以防后处理将置信度推到阈值以上。这将更直观,但效率更低 可能的配置改进 如果您只想搜索这一列,而其他列只是您想要返回的数据,那么请确保该列是唯一索引的列。打开数据库的属性时,会显示带有复选框的字段名。选中的任何字段都会编制索引,并且是定位器将尝试在文档上查找的内容的一部分。如果您检查了一组实际上不在文档中的字段,尤其是如果定位器设置“空字段惩罚”的值为非零值,那么您的可信度可能会降低 使用KSMS时,无法在Project Builder中更改索引列,因为KSMS正在生成和服务索引。而是在KSMS管理中打开数据库的导入设置,并查看复选框中的“要使用的列”部分。如果通过上载文件而不是指向UNC路径来配置数据库,则需要再次上载该文件才能更改哪些列
First Name Street Zip City
--------------------- ------------ -------- ------ ------
Importance (weight) 1.4 1.4 0.2 0.2
Confidence 0.95 1 0.2 1
weighted Confidence 1.33 1.4 0.04 0.2
--
TOTAL: 93%
(1.33 + 1.4 + 0.04 + 0.2 ) / (1.4 + 1.4 + 0.2 + 0.2) = 0.928125