Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/macos/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python 3从PDF解析中提取标题和子标题_Python_Html_Python 3.x_Pdf - Fatal编程技术网

使用Python 3从PDF解析中提取标题和子标题

使用Python 3从PDF解析中提取标题和子标题,python,html,python-3.x,pdf,Python,Html,Python 3.x,Pdf,我试图将pdf解析为html,然后我想从标记中提取标题和副标题。pdf文档是由MicrosoftWord生成的,所以我很确定一定有办法获取这些标题 到目前为止,我已经尝试过使用ApacheTika和PDFMiner.six进行解析,但到目前为止,我得到的html没有这样的标记,我可以用来提取文档的标题和副标题 我想知道是否有办法做到这一点,将感谢任何帮助。谢谢我建议您使用GROBID,这是一个机器学习库,用于提取、解析原始文档(如PDF)并将其重新构造为结构化XML/TEI编码文档,特别关注技术

我试图将pdf解析为html,然后我想从标记中提取标题和副标题。pdf文档是由MicrosoftWord生成的,所以我很确定一定有办法获取这些标题

到目前为止,我已经尝试过使用ApacheTika和PDFMiner.six进行解析,但到目前为止,我得到的html没有这样的标记,我可以用来提取文档的标题和副标题


我想知道是否有办法做到这一点,将感谢任何帮助。谢谢

我建议您使用GROBID,这是一个机器学习库,用于提取、解析原始文档(如PDF)并将其重新构造为结构化XML/TEI编码文档,特别关注技术和科学出版物

GROBID REST服务的简单python客户端位于

GROBID服务可以使用此Python客户端处理给定目录中的一组PDF。结果写在给定的输出目录中,并包括PDF的结果XML TEI表示形式


希望这能有所帮助。

我建议您使用GROBID,这是一个机器学习库,用于提取、解析原始文档(如PDF)并将其重新构造为结构化XML/TEI编码文档,特别关注技术和科学出版物

GROBID REST服务的简单python客户端位于

GROBID服务可以使用此Python客户端处理给定目录中的一组PDF。结果写在给定的输出目录中,并包括PDF的结果XML TEI表示形式

希望这有帮助