什么';在python中从pdf中提取文本而不改变布局和格式的最佳方法是什么?

什么';在python中从pdf中提取文本而不改变布局和格式的最佳方法是什么?,pdf,text,pypdf2,pdfminer,pdftotext,Pdf,Text,Pypdf2,Pdfminer,Pdftotext,我想要pdf格式和布局准确的文本。 如果pdf转换为文本不是直接选择,是否可以执行pdf->xml->text 我已经试过PyPDF2、pdfminer和PdfToText。甚至我也尝试过使用AWS textract,但布局不正确。 基本上,如果我能从pdf提取的文本中构造句子,那就足够了。 我使用了Zamzar API,它提供了精确的输出,但它们非常昂贵。 任何可能的解决方案?如果您希望保留PDF的结构,而不是字体、颜色、大小等,请尝试使用pdftables_api库。这将保存PDF的布局。将

我想要pdf格式和布局准确的文本。
如果pdf转换为文本不是直接选择,是否可以执行pdf->xml->text
我已经试过PyPDF2、pdfminer和PdfToText。甚至我也尝试过使用AWS textract,但布局不正确。
基本上,如果我能从pdf提取的文本中构造句子,那就足够了。
我使用了Zamzar API,它提供了精确的输出,但它们非常昂贵。
任何可能的解决方案?

如果您希望保留PDF的结构,而不是字体、颜色、大小等,请尝试使用pdftables_api库。这将保存PDF的布局。将PDF转换为CSV,因为CSV文件只是一个逗号分隔的文本文件


如果您希望保留字体、颜色等,Zamzar API可能是您的最佳选择