Python PDFMiner从PDF中提取文本，而不混合顺序_Python_Pdf_Pdfminer

Python PDFMiner从PDF中提取文本，而不混合顺序

python pdf

Python PDFMiner从PDF中提取文本，而不混合顺序,python,pdf,pdfminer,Python,Pdf,Pdfminer,我有以下PDF格式的文本： STUDENT ________JOHN______ DATE ______MM/DD/AAA______ (date) COURSE ___________________ PROFESSOR ___________ 当我使用PDFMiner提取文本时，我得到以下结果： STUDENT ____ DATE MM/DD/AAA (date) JOHN COURSE ___________________ PROFESSOR ___________ 如何使用P

我有以下PDF格式的文本：

STUDENT ________JOHN______
DATE ______MM/DD/AAA______ (date)
COURSE ___________________ PROFESSOR ___________

当我使用PDFMiner提取文本时，我得到以下结果：

STUDENT ____
DATE MM/DD/AAA
(date)
JOHN
COURSE 
___________________ 
PROFESSOR 
___________

如何使用PDFMiner（或其他Python库）获得正确的输出？

最好的方法是使用PDFMiner HTMLConverter将PDF提取为HTML。典型的命令是：

pdf2txt.py-t html-o outputFilePath/outputFileName.txt YourPDFpath/PDFname.pdf

进一步处理可能会使您陷入编码困境，因此最好将编码定义为utf-8或cp1252。示例：

pdf2txt.py-t html-c cp1252-o outputFilePath/outputFileName.txt YourPDFpath/PDFname.pdf

我的理解是PDFMiner使用提取文本，我猜它只是按照添加到pdf中的顺序提取文本。尝试填充

-t xml

选项，该选项将为您提供更详细的文档，您应该能够编写您想要的任何逻辑。在使用PDFMiner之前访问PDF时，您是否获得了更好的结果？您是否找到了解决方案？我遇到了同样的问题。@Yeagz，不是真的，但我能够在树中找到具有特定名称的数据，得到它的bbox并找到相同like中的所有数据（具有给定的边距，每行可能不同）。我能用这种方式“解决”我的问题。