使用Python 3从PDF解析中提取标题和子标题
我试图将pdf解析为html,然后我想从标记中提取标题和副标题。pdf文档是由MicrosoftWord生成的,所以我很确定一定有办法获取这些标题 到目前为止,我已经尝试过使用ApacheTika和PDFMiner.six进行解析,但到目前为止,我得到的html没有这样的标记,我可以用来提取文档的标题和副标题使用Python 3从PDF解析中提取标题和子标题,python,html,python-3.x,pdf,Python,Html,Python 3.x,Pdf,我试图将pdf解析为html,然后我想从标记中提取标题和副标题。pdf文档是由MicrosoftWord生成的,所以我很确定一定有办法获取这些标题 到目前为止,我已经尝试过使用ApacheTika和PDFMiner.six进行解析,但到目前为止,我得到的html没有这样的标记,我可以用来提取文档的标题和副标题 我想知道是否有办法做到这一点,将感谢任何帮助。谢谢我建议您使用GROBID,这是一个机器学习库,用于提取、解析原始文档(如PDF)并将其重新构造为结构化XML/TEI编码文档,特别关注技术
我想知道是否有办法做到这一点,将感谢任何帮助。谢谢我建议您使用GROBID,这是一个机器学习库,用于提取、解析原始文档(如PDF)并将其重新构造为结构化XML/TEI编码文档,特别关注技术和科学出版物 GROBID REST服务的简单python客户端位于 GROBID服务可以使用此Python客户端处理给定目录中的一组PDF。结果写在给定的输出目录中,并包括PDF的结果XML TEI表示形式
希望这能有所帮助。我建议您使用GROBID,这是一个机器学习库,用于提取、解析原始文档(如PDF)并将其重新构造为结构化XML/TEI编码文档,特别关注技术和科学出版物 GROBID REST服务的简单python客户端位于 GROBID服务可以使用此Python客户端处理给定目录中的一组PDF。结果写在给定的输出目录中,并包括PDF的结果XML TEI表示形式 希望这有帮助