Python 从OCR文本中提取键值对_Python_Python 3.x_Parsing_Text Mining_Data Extraction

Python 从OCR文本中提取键值对

python python-3.x parsing

Python 从OCR文本中提取键值对,python,python-3.x,parsing,text-mining,data-extraction,Python,Python 3.x,Parsing,Text Mining,Data Extraction,我应该使用OCR识别法律文件中的文本，提取相关键及其值（大约40个属性），然后将它们存储在excel表格中我已经实现了OCR部分，并且我的字典定义了类似的内容 dictionary = {"Lease Term":["<data in years>"], "Rent" : ["<maybe float numbers>"], "Car parking Spaces":["<number of parking spaces>"], Lessor Name:["

我应该使用OCR识别法律文件中的文本，提取相关键及其值（大约40个属性），然后将它们存储在excel表格中

我已经实现了OCR部分，并且我的字典定义了类似的内容

dictionary = {"Lease Term":["<data in years>"], "Rent" : ["<maybe float numbers>"], "Car parking Spaces":["<number of parking spaces>"], Lessor Name:["<String value>"]}

dictionary={“租赁期限”：[“”]，“租金”：[“”]，“停车位”：[“”]，出租人姓名：[“”]}

我的问题是，一旦我识别了文本，并用nltk标记，我如何继续并实际识别需要提取的文本？当然，我可以识别文本中的键，但实际获取键对值的方法是什么

我阅读了其他答案，似乎用100个左右的样本文档（我有大约700个）来匹配正则表达式或手动训练数据是解决这一问题的方法，但如果我试图向团队中的任何人（非技术财务人员）解释这一难题，他们往往会忽略术语，让我在几天内完成这一切

我确信regex和NLP方法都需要手工操作，因为我必须对我将获得的示例文档进行测试，这是在我的代码中实现它们之后（为此我必须从头开始学习）

请描述一种有助于解决此问题的方法。

AWS Textract将允许您检测文档中的键值对。它将提取的表单数据表示为键值对。键值对作为块对象返回，您可以使用“EntityType”属性确定块是键还是值。块对象只是一组包含键值信息的链接数据项

希望这有帮助：

您找到了一个好方法吗？如果是，请发布您的解决方案。：）