使用Python 3从PDF解析中提取标题和子标题_Python_Html_Python 3.x_Pdf

使用Python 3从PDF解析中提取标题和子标题

python html python-3.x pdf

使用Python 3从PDF解析中提取标题和子标题,python,html,python-3.x,pdf,Python,Html,Python 3.x,Pdf,我试图将pdf解析为html，然后我想从标记中提取标题和副标题。pdf文档是由MicrosoftWord生成的，所以我很确定一定有办法获取这些标题到目前为止，我已经尝试过使用ApacheTika和PDFMiner.six进行解析，但到目前为止，我得到的html没有这样的标记，我可以用来提取文档的标题和副标题我想知道是否有办法做到这一点，将感谢任何帮助。谢谢我建议您使用GROBID，这是一个机器学习库，用于提取、解析原始文档（如PDF）并将其重新构造为结构化XML/TEI编码文档，特别关注技术

我试图将pdf解析为html，然后我想从标记中提取标题和副标题。pdf文档是由MicrosoftWord生成的，所以我很确定一定有办法获取这些标题

到目前为止，我已经尝试过使用ApacheTika和PDFMiner.six进行解析，但到目前为止，我得到的html没有这样的标记，我可以用来提取文档的标题和副标题

我想知道是否有办法做到这一点，将感谢任何帮助。谢谢

我建议您使用GROBID，这是一个机器学习库，用于提取、解析原始文档（如PDF）并将其重新构造为结构化XML/TEI编码文档，特别关注技术和科学出版物

GROBID REST服务的简单python客户端位于

GROBID服务可以使用此Python客户端处理给定目录中的一组PDF。结果写在给定的输出目录中，并包括PDF的结果XML TEI表示形式

希望这能有所帮助。

我建议您使用GROBID，这是一个机器学习库，用于提取、解析原始文档（如PDF）并将其重新构造为结构化XML/TEI编码文档，特别关注技术和科学出版物

GROBID REST服务的简单python客户端位于

GROBID服务可以使用此Python客户端处理给定目录中的一组PDF。结果写在给定的输出目录中，并包括PDF的结果XML TEI表示形式

希望这有帮助