用Python解析hOCR到JSON

用Python解析hOCR到JSON,python,postgresql,parsing,python-tesseract,hocr,Python,Postgresql,Parsing,Python Tesseract,Hocr,我正在使用tesseract ocr并以hOCR格式获得输出。我需要将这个hOCR输出存储到数据库中(在我的例子中是PostgreSQL) 由于我可能需要本hOCR中的每一条信息(80%),哪种方法是正确的?它应该存储为XML数据类型还是解析为JSON并存储?对于JSON,如何用Python将这个hOCR解析为JSON。还欢迎其他相关建议。hOCR似乎是XML的一种方言,因此您应该能够使用stdlib中的XML.etree模块将hOCR代码解析为Python导航树。然后导航该树以组成一个对象或嵌

我正在使用tesseract ocr并以hOCR格式获得输出。我需要将这个hOCR输出存储到数据库中(在我的例子中是PostgreSQL)


由于我可能需要本hOCR中的每一条信息(80%),哪种方法是正确的?它应该存储为XML数据类型还是解析为JSON并存储?对于JSON,如何用Python将这个hOCR解析为JSON。还欢迎其他相关建议。

hOCR似乎是XML的一种方言,因此您应该能够使用stdlib中的
XML.etree
模块将hOCR代码解析为Python导航树。然后导航该树以组成一个对象或嵌套的dict,然后最后使用stdlib的
json
模块将该dict转换为json。

您以前尝试过什么?我仍然需要为此设计数据库,我现在,决定要包含在此工作流中的工作流和元素,以存储此hOCR格式文件的详细信息。我不是python程序员。因此,我们还没有尝试实现。是的,hOCR是一个XHTML或HTML文档,请参阅文档。首先,您可以查看hocr工具的实现,这些工具是使用etree解析hocr文件的Python工具,然后进行一些不同的计算:。