Python PDFMiner-获取文本行

Python PDFMiner-获取文本行,python,pdftotext,Python,Pdftotext,我正在使用中提供的代码段将PDF文件转换为文本。问题是PDF是三列格式的,我需要阅读每一行。然而,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列。。。由于文本没有遵循任何逻辑顺序,我无法分析每一行。那么,有没有办法使用PDFMiner获取PDF文件的每一行呢 编辑: PDFMiner附带一个命令行工具,用于将PDF转换为文本。通过使用它并将0.05设置为单词边距,我可以获得格式更好的文本,但无法达到目标。我在解析表时也有类似的设置*。对我来说,有效的方法是排除HTML。然后,您可以

我正在使用中提供的代码段将PDF文件转换为文本。问题是PDF是三列格式的,我需要阅读每一行。然而,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列。。。由于文本没有遵循任何逻辑顺序,我无法分析每一行。那么,有没有办法使用PDFMiner获取PDF文件的每一行呢

编辑:


PDFMiner附带一个命令行工具,用于将PDF转换为文本。通过使用它并将
0.05
设置为单词边距,我可以获得格式更好的文本,但无法达到目标。

我在解析表时也有类似的设置*。对我来说,有效的方法是排除HTML。然后,您可以解析HTML表并考虑表标记(参见HTMLParser的python文档)

我的两分钱:)


*word中的表格复制到QT TextEdit小部件中。小部件接受富文本,但如果将表导出为文本,则会弄乱。导出为HTML,解析为HTML,获取数据:)这是在工作中完成的,这里没有代码。

您可以添加一个链接,在那里找到HTMLPasser的文档吗。谢谢你不是说pdfminer.converter.HTMLConverter吗?链接被删除