Python 2.7 如何使用Tesseract从车辆的认证卡中获取文本区域

Python 2.7 如何使用Tesseract从车辆的认证卡中获取文本区域,python-2.7,ocr,python-tesseract,Python 2.7,Ocr,Python Tesseract,我需要关于tesseract的建议。我曾尝试使用Tesseract,但效果并不完美。很多信息丢失了。我想扫描法国车辆的注册证书,我必须将数据恢复到数据库中。你可以在文件下面找到,这是一份法国注册证书。是否可以检测此文档中的每个区域并将此信息保存在数据库中?我在互联网上读到过,不可能只用Tesseract检测区域 例如,区域A、B、C.1、D.2.1。如何检测/扫描每个区域并将此信息插入数据库 例如: 我想这样做: 如何恢复每个区域文本并将其插入数据库 谢谢你的帮助 尼古拉斯我实际上正在做一个

我需要关于tesseract的建议。我曾尝试使用Tesseract,但效果并不完美。很多信息丢失了。我想扫描法国车辆的注册证书,我必须将数据恢复到数据库中。你可以在文件下面找到,这是一份法国注册证书。是否可以检测此文档中的每个区域并将此信息保存在数据库中?我在互联网上读到过,不可能只用Tesseract检测区域

例如,区域A、B、C.1、D.2.1。如何检测/扫描每个区域并将此信息插入数据库

例如:

我想这样做:

如何恢复每个区域文本并将其插入数据库

谢谢你的帮助


尼古拉斯

我实际上正在做一个与你类似的项目,这里是我的建议 光学字符识别技术?光学字符识别 由于OCR,有一些OCR工具能够从pdf表单或图像中提取数据。以下是我推荐的OCR工具列表: -转换 -PDFMiner:PDF2txt-PDF2Word -tabla:从表中提取数据 -艾比·费内德14 -数据观察


如果您有任何补充信息,请与我们分享

我一直在从PDF中提取表格和表单数据。我认为解决问题的方法是首先检测所有写入文本的区域,然后创建到列的映射

如果登记表本质上是静态的,则意味着如果特定字段的文本区域是固定的,则可以创建特定于问题的模板,然后从这些定义的坐标裁剪图像,然后尝试应用tesseract

Tesseract不是100%正确的,因此为了提高准确性,您可以在数据上对其进行训练