Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Groovy 模糊字符串匹配_Groovy_Ocr_Tesseract_Fuzzy Comparison - Fatal编程技术网

Groovy 模糊字符串匹配

Groovy 模糊字符串匹配,groovy,ocr,tesseract,fuzzy-comparison,Groovy,Ocr,Tesseract,Fuzzy Comparison,在对一些图像进行光学字符识别后,我得到了近似文本。通常认可度不高。例如,实际文本“DATE”是“DHTE”或“0HTE”。基本上,我需要识别和提取每一行中的数据,所以我不想要完美的识别,只需要识别日期行即可。我试图计算Levenshtein编辑距离,但不幸的是,这会为日期和时间提供类似的值。目前,我正在尝试探索是否可以使用正则表达式来匹配数据模式 是否有更好的匹配过程的方法/算法?幸运的是,我的词汇量不是很大 (我使用tesseract进行ocr,使用groovy/java进行算法)这一个有一些

在对一些图像进行光学字符识别后,我得到了近似文本。通常认可度不高。例如,实际文本“DATE”是“DHTE”或“0HTE”。基本上,我需要识别和提取每一行中的数据,所以我不想要完美的识别,只需要识别日期行即可。我试图计算Levenshtein编辑距离,但不幸的是,这会为日期和时间提供类似的值。目前,我正在尝试探索是否可以使用正则表达式来匹配数据模式

是否有更好的匹配过程的方法/算法?幸运的是,我的词汇量不是很大


(我使用tesseract进行ocr,使用groovy/java进行算法)

这一个有一些非常酷的算法

这是StringUtils中的基本功能

这个有一些非常酷的算法

这是StringUtils中的基本功能