Python 2.7 如何使用Tesseract从车辆的认证卡中获取文本区域_Python 2.7_Ocr_Python Tesseract

Python 2.7 如何使用Tesseract从车辆的认证卡中获取文本区域

python-2.7

Python 2.7 如何使用Tesseract从车辆的认证卡中获取文本区域,python-2.7,ocr,python-tesseract,Python 2.7,Ocr,Python Tesseract,我需要关于tesseract的建议。我曾尝试使用Tesseract，但效果并不完美。很多信息丢失了。我想扫描法国车辆的注册证书，我必须将数据恢复到数据库中。你可以在文件下面找到，这是一份法国注册证书。是否可以检测此文档中的每个区域并将此信息保存在数据库中？我在互联网上读到过，不可能只用Tesseract检测区域例如，区域A、B、C.1、D.2.1。如何检测/扫描每个区域并将此信息插入数据库例如：我想这样做：如何恢复每个区域文本并将其插入数据库谢谢你的帮助尼古拉斯我实际上正在做一个

我需要关于tesseract的建议。我曾尝试使用Tesseract，但效果并不完美。很多信息丢失了。我想扫描法国车辆的注册证书，我必须将数据恢复到数据库中。你可以在文件下面找到，这是一份法国注册证书。是否可以检测此文档中的每个区域并将此信息保存在数据库中？我在互联网上读到过，不可能只用Tesseract检测区域

例如，区域A、B、C.1、D.2.1。如何检测/扫描每个区域并将此信息插入数据库

例如：

我想这样做：

如何恢复每个区域文本并将其插入数据库

谢谢你的帮助

尼古拉斯

我实际上正在做一个与你类似的项目，这里是我的建议光学字符识别技术？光学字符识别由于OCR，有一些OCR工具能够从pdf表单或图像中提取数据。以下是我推荐的OCR工具列表： -转换 -PDFMiner:PDF2txt-PDF2Word -tabla：从表中提取数据 -艾比·费内德14 -数据观察

如果您有任何补充信息，请与我们分享

我一直在从PDF中提取表格和表单数据。我认为解决问题的方法是首先检测所有写入文本的区域，然后创建到列的映射

如果登记表本质上是静态的，则意味着如果特定字段的文本区域是固定的，则可以创建特定于问题的模板，然后从这些定义的坐标裁剪图像，然后尝试应用tesseract

Tesseract不是100%正确的，因此为了提高准确性，您可以在数据上对其进行训练