Python PDFMiner-获取文本行_Python_Pdftotext

Python PDFMiner-获取文本行

python

Python PDFMiner-获取文本行,python,pdftotext,Python,Pdftotext,我正在使用中提供的代码段将PDF文件转换为文本。问题是PDF是三列格式的，我需要阅读每一行。然而，我得到的文本是无序的：有时混合第一列和第二列，有时混合第三列。。。由于文本没有遵循任何逻辑顺序，我无法分析每一行。那么，有没有办法使用PDFMiner获取PDF文件的每一行呢编辑： PDFMiner附带一个命令行工具，用于将PDF转换为文本。通过使用它并将0.05设置为单词边距，我可以获得格式更好的文本，但无法达到目标。我在解析表时也有类似的设置*。对我来说，有效的方法是排除HTML。然后，您可以

我正在使用中提供的代码段将PDF文件转换为文本。问题是PDF是三列格式的，我需要阅读每一行。然而，我得到的文本是无序的：有时混合第一列和第二列，有时混合第三列。。。由于文本没有遵循任何逻辑顺序，我无法分析每一行。那么，有没有办法使用PDFMiner获取PDF文件的每一行呢

编辑：

PDFMiner附带一个命令行工具，用于将PDF转换为文本。通过使用它并将

0.05

设置为单词边距，我可以获得格式更好的文本，但无法达到目标。

我在解析表时也有类似的设置*。对我来说，有效的方法是排除HTML。然后，您可以解析HTML表并考虑表标记（参见HTMLParser的python文档）

我的两分钱：）

*word中的表格复制到QT TextEdit小部件中。小部件接受富文本，但如果将表导出为文本，则会弄乱。导出为HTML，解析为HTML，获取数据：）这是在工作中完成的，这里没有代码。

您可以添加一个链接，在那里找到HTMLPasser的文档吗。谢谢你不是说pdfminer.converter.HTMLConverter吗？链接被删除