Python 如何在维护文本结构（标题/副标题/正文）的同时进行PDF文本提取的OCR_Python_Opencv_Pdf_Ocr_Tesseract

Python 如何在维护文本结构（标题/副标题/正文）的同时进行PDF文本提取的OCR

python opencv pdf

Python 如何在维护文本结构（标题/副标题/正文）的同时进行PDF文本提取的OCR,python,opencv,pdf,ocr,tesseract,Python,Opencv,Pdf,Ocr,Tesseract,我一直在无休止地寻找一个工具，可以从PDF中提取文本，同时保持结构。也就是说，给定这样一个文本：标题副标题1 车身1 副标题2 车身2 或标题副标题1。车身1 副标题2。车身2 我想要一个工具，可以输出的标题，字幕和机构列表。或者，如果有人知道如何做到这一点，那也会很有用：）如果这三个类别的格式相同，这将更容易实现，但有时字幕可以是粗体、斜体、下划线或三者的随机组合。标题也一样。从HTML/PDF/Docx进行简单解析的问题是，这些文本没有标准，因此我们经常会遇到被分成几个标记

我一直在无休止地寻找一个工具，可以从PDF中提取文本，同时保持结构。也就是说，给定这样一个文本：

标题 副标题1

车身1

副标题2

车身2

或

标题副标题1。车身1

副标题2。车身2

我想要一个工具，可以输出的标题，字幕和机构列表。或者，如果有人知道如何做到这一点，那也会很有用：）

如果这三个类别的格式相同，这将更容易实现，但有时字幕可以是粗体、斜体、下划线或三者的随机组合。标题也一样。从HTML/PDF/Docx进行简单解析的问题是，这些文本没有标准，因此我们经常会遇到被分成几个标记的句子（在HTML的情况下），这是一个很难解析的问题。正如你所看到的，字幕并不总是在给定段落的上方，或者有时在要点中。这么多可能的格式组合

到目前为止，我在使用Tesseract和OpenCV时遇到过类似的问题，但没有一个能完全回答我的问题

我知道有一些机器学习工具可以从科学论文中提取“目录”部分，但这也不能解决问题。有人知道包/库吗，或者是否已经实现了这样的东西？或者有人知道解决这个问题的方法吗，最好是用Python

谢谢大家!

编辑：我所指的文件是来自公司的10 Ks，比如这一个

比如说，我想以我上面提到的编程和结构化的方式提取第7项。但并不是所有这些都是标准化的HTML解析。（PDF文档就是以PDF格式保存的HTML）

有些工具可以在一定程度上实现您所请求的功能。通过说“一定程度”，我的意思是标题和标题字体属性将在OCR转换后保留

看看Adobe的文档云平台。它仍处于发射阶段，将于2020年初发射。但是，开发人员可以通过注册早期访问计划获得早期访问权。以下链接提供了所有信息：

我亲自试用了这项服务，结果似乎很有希望。所有标题和标题案例在输入文档中得到识别。提供此确切功能的micro服务是“ExportPDF”服务，它将扫描的PDF文档转换为Microsoft Word文档

示例代码位于：

您是指pdf文本提取还是ocr pdf图像？如果有问题要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源，则堆栈溢出问题不属于主题。您的一个“相关”问题包含实际代码；另一个是几年前没有那么多工具请求，今天也应该很快关闭。@zindarod我指的是pdf文本提取-这些是从html文档中解析出来的pdf，因此它们包含文本。但将其视为文本提取问题并不奏效，因此我搜索OCR工具。@usr2564301我将重新定义我的问题，谢谢这里有用Python编写的PDF文本提取模块（例如）。但是你说问题是没有关于标题、子标题和正文的标准，那么你打算如何通过编程获得这些信息呢？你心目中的算法概要是什么？此外，如果这些PDF中的任何一个可以在线访问，那么链接到它们可能会有所帮助。谢谢！目前，他们提供1000个免费电话，还有一笔未披露的费用需要支付。无论如何，我被困在“生成个性化代码示例”步骤。我就是这样解决的：