Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从OCR文本中提取键值对_Python_Python 3.x_Parsing_Text Mining_Data Extraction - Fatal编程技术网

Python 从OCR文本中提取键值对

Python 从OCR文本中提取键值对,python,python-3.x,parsing,text-mining,data-extraction,Python,Python 3.x,Parsing,Text Mining,Data Extraction,我应该使用OCR识别法律文件中的文本,提取相关键及其值(大约40个属性),然后将它们存储在excel表格中 我已经实现了OCR部分,并且我的字典定义了类似的内容 dictionary = {"Lease Term":["<data in years>"], "Rent" : ["<maybe float numbers>"], "Car parking Spaces":["<number of parking spaces>"], Lessor Name:["

我应该使用OCR识别法律文件中的文本,提取相关键及其值(大约40个属性),然后将它们存储在excel表格中

我已经实现了OCR部分,并且我的字典定义了类似的内容

dictionary = {"Lease Term":["<data in years>"], "Rent" : ["<maybe float numbers>"], "Car parking Spaces":["<number of parking spaces>"], Lessor Name:["<String value>"]}
dictionary={“租赁期限”:[“”],“租金”:[“”],“停车位”:[“”],出租人姓名:[“”]}
我的问题是,一旦我识别了文本,并用nltk标记,我如何继续并实际识别需要提取的文本?当然,我可以识别文本中的键,但实际获取键对值的方法是什么

我阅读了其他答案,似乎用100个左右的样本文档(我有大约700个)来匹配正则表达式或手动训练数据是解决这一问题的方法,但如果我试图向团队中的任何人(非技术财务人员)解释这一难题,他们往往会忽略术语,让我在几天内完成这一切

我确信regex和NLP方法都需要手工操作,因为我必须对我将获得的示例文档进行测试,这是在我的代码中实现它们之后(为此我必须从头开始学习)


请描述一种有助于解决此问题的方法。

AWS Textract将允许您检测文档中的键值对。它将提取的表单数据表示为键值对。键值对作为块对象返回,您可以使用“EntityType”属性确定块是键还是值。块对象只是一组包含键值信息的链接数据项


希望这有帮助:

您找到了一个好方法吗?如果是,请发布您的解决方案。:)