Python PDFMiner从PDF中提取文本,而不混合顺序

Python PDFMiner从PDF中提取文本,而不混合顺序,python,pdf,pdfminer,Python,Pdf,Pdfminer,我有以下PDF格式的文本: STUDENT ________JOHN______ DATE ______MM/DD/AAA______ (date) COURSE ___________________ PROFESSOR ___________ 当我使用PDFMiner提取文本时,我得到以下结果: STUDENT ____ DATE MM/DD/AAA (date) JOHN COURSE ___________________ PROFESSOR ___________ 如何使用P

我有以下PDF格式的文本:

STUDENT ________JOHN______
DATE ______MM/DD/AAA______ (date)
COURSE ___________________ PROFESSOR ___________
当我使用PDFMiner提取文本时,我得到以下结果:

STUDENT ____
DATE MM/DD/AAA
(date)
JOHN
COURSE 
___________________ 
PROFESSOR 
___________

如何使用PDFMiner(或其他Python库)获得正确的输出?

最好的方法是使用PDFMiner HTMLConverter将PDF提取为HTML。 典型的命令是:

pdf2txt.py-t html-o outputFilePath/outputFileName.txt YourPDFpath/PDFname.pdf

进一步处理可能会使您陷入编码困境,因此最好将编码定义为utf-8或cp1252。示例:


pdf2txt.py-t html-c cp1252-o outputFilePath/outputFileName.txt YourPDFpath/PDFname.pdf

我的理解是PDFMiner使用提取文本,我猜它只是按照添加到pdf中的顺序提取文本。尝试填充
-t xml
选项,该选项将为您提供更详细的文档,您应该能够编写您想要的任何逻辑。在使用PDFMiner之前访问PDF时,您是否获得了更好的结果?您是否找到了解决方案?我遇到了同样的问题。@Yeagz,不是真的,但我能够在树中找到具有特定名称的数据,得到它的bbox并找到相同like中的所有数据(具有给定的边距,每行可能不同)。我能用这种方式“解决”我的问题。