Python 从交易凭证中提取日期
我试图从交易凭证中提取日期。我将pdf转换为图像,并使用ocr从图像中提取所有数据。我已经使用hocr将文件转换为html文件,以便可以使用元素标记中的关键字提取数据。我需要从收据中提取发票日期。Python 从交易凭证中提取日期,python,ocr,python-tesseract,data-extraction,hocr,Python,Ocr,Python Tesseract,Data Extraction,Hocr,我试图从交易凭证中提取日期。我将pdf转换为图像,并使用ocr从图像中提取所有数据。我已经使用hocr将文件转换为html文件,以便可以使用元素标记中的关键字提取数据。我需要从收据中提取发票日期。 问题是,这些收据没有特定的格式或模式,日期的格式不同,放在文件的不同位置。我试图使用“date”关键字检索关键字的父类以获取日期,但它仅适用于少数文件。请告诉我如何使用python中的beautifulsoup检查父标记是否有数字。如果还有其他方法,请告诉我使用正则表达式提取日期。使用正则表达式提取日
问题是,这些收据没有特定的格式或模式,日期的格式不同,放在文件的不同位置。我试图使用“date”关键字检索关键字的父类以获取日期,但它仅适用于少数文件。请告诉我如何使用python中的beautifulsoup检查父标记是否有数字。如果还有其他方法,请告诉我使用正则表达式提取日期。使用正则表达式提取日期。