Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/opencv/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在维护文本结构(标题/副标题/正文)的同时进行PDF文本提取的OCR_Python_Opencv_Pdf_Ocr_Tesseract - Fatal编程技术网

Python 如何在维护文本结构(标题/副标题/正文)的同时进行PDF文本提取的OCR

Python 如何在维护文本结构(标题/副标题/正文)的同时进行PDF文本提取的OCR,python,opencv,pdf,ocr,tesseract,Python,Opencv,Pdf,Ocr,Tesseract,我一直在无休止地寻找一个工具,可以从PDF中提取文本,同时保持结构。也就是说,给定这样一个文本: 标题 副标题1 车身1 副标题2 车身2 或 标题 副标题1。车身1 副标题2。车身2 我想要一个工具,可以输出的标题,字幕和机构列表。或者,如果有人知道如何做到这一点,那也会很有用:) 如果这三个类别的格式相同,这将更容易实现,但有时字幕可以是粗体、斜体、下划线或三者的随机组合。标题也一样。从HTML/PDF/Docx进行简单解析的问题是,这些文本没有标准,因此我们经常会遇到被分成几个标记

我一直在无休止地寻找一个工具,可以从PDF中提取文本,同时保持结构。也就是说,给定这样一个文本:


标题 副标题1

车身1

副标题2

车身2



标题 副标题1。车身1

副标题2。车身2


我想要一个工具,可以输出的标题,字幕和机构列表。或者,如果有人知道如何做到这一点,那也会很有用:)

如果这三个类别的格式相同,这将更容易实现,但有时字幕可以是粗体、斜体、下划线或三者的随机组合。标题也一样。从HTML/PDF/Docx进行简单解析的问题是,这些文本没有标准,因此我们经常会遇到被分成几个标记的句子(在HTML的情况下),这是一个很难解析的问题。正如你所看到的,字幕并不总是在给定段落的上方,或者有时在要点中。这么多可能的格式组合

到目前为止,我在使用Tesseract和OpenCV时遇到过类似的问题,但没有一个能完全回答我的问题

我知道有一些机器学习工具可以从科学论文中提取“目录”部分,但这也不能解决问题。 有人知道包/库吗,或者是否已经实现了这样的东西?或者有人知道解决这个问题的方法吗,最好是用Python

谢谢大家!

编辑: 我所指的文件是来自公司的10 Ks,比如这一个
比如说,我想以我上面提到的编程和结构化的方式提取第7项。但并不是所有这些都是标准化的HTML解析。(PDF文档就是以PDF格式保存的HTML)

有些工具可以在一定程度上实现您所请求的功能。通过说“一定程度”,我的意思是标题和标题字体属性将在OCR转换后保留

看看Adobe的文档云平台。它仍处于发射阶段,将于2020年初发射。但是,开发人员可以通过注册早期访问计划获得早期访问权。以下链接提供了所有信息:

我亲自试用了这项服务,结果似乎很有希望。所有标题和标题案例在输入文档中得到识别。提供此确切功能的micro服务是“ExportPDF”服务,它将扫描的PDF文档转换为Microsoft Word文档


示例代码位于:

您是指pdf文本提取还是ocr pdf图像?如果有问题要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源,则堆栈溢出问题不属于主题。您的一个“相关”问题包含实际代码;另一个是几年前没有那么多工具请求,今天也应该很快关闭。@zindarod我指的是pdf文本提取-这些是从html文档中解析出来的pdf,因此它们包含文本。但将其视为文本提取问题并不奏效,因此我搜索OCR工具。@usr2564301我将重新定义我的问题,谢谢这里有用Python编写的PDF文本提取模块(例如)。但是你说问题是没有关于标题、子标题和正文的标准,那么你打算如何通过编程获得这些信息呢?你心目中的算法概要是什么?此外,如果这些PDF中的任何一个可以在线访问,那么链接到它们可能会有所帮助。谢谢!目前,他们提供1000个免费电话,还有一笔未披露的费用需要支付。无论如何,我被困在“生成个性化代码示例”步骤。我就是这样解决的: