Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/EmptyTag/147.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从交易凭证中提取日期_Python_Ocr_Python Tesseract_Data Extraction_Hocr - Fatal编程技术网

Python 从交易凭证中提取日期

Python 从交易凭证中提取日期,python,ocr,python-tesseract,data-extraction,hocr,Python,Ocr,Python Tesseract,Data Extraction,Hocr,我试图从交易凭证中提取日期。我将pdf转换为图像,并使用ocr从图像中提取所有数据。我已经使用hocr将文件转换为html文件,以便可以使用元素标记中的关键字提取数据。我需要从收据中提取发票日期。 问题是,这些收据没有特定的格式或模式,日期的格式不同,放在文件的不同位置。我试图使用“date”关键字检索关键字的父类以获取日期,但它仅适用于少数文件。请告诉我如何使用python中的beautifulsoup检查父标记是否有数字。如果还有其他方法,请告诉我使用正则表达式提取日期。使用正则表达式提取日

我试图从交易凭证中提取日期。我将pdf转换为图像,并使用ocr从图像中提取所有数据。我已经使用hocr将文件转换为html文件,以便可以使用元素标记中的关键字提取数据。我需要从收据中提取发票日期。
问题是,这些收据没有特定的格式或模式,日期的格式不同,放在文件的不同位置。我试图使用“date”关键字检索关键字的父类以获取日期,但它仅适用于少数文件。请告诉我如何使用python中的beautifulsoup检查父标记是否有数字。如果还有其他方法,请告诉我使用正则表达式提取日期。使用正则表达式提取日期。