什么'；在python中从pdf中提取文本而不改变布局和格式的最佳方法是什么？_Pdf_Text_Pypdf2_Pdfminer_Pdftotext

什么'；在python中从pdf中提取文本而不改变布局和格式的最佳方法是什么？

pdf text

什么'；在python中从pdf中提取文本而不改变布局和格式的最佳方法是什么？,pdf,text,pypdf2,pdfminer,pdftotext,Pdf,Text,Pypdf2,Pdfminer,Pdftotext,我想要pdf格式和布局准确的文本。如果pdf转换为文本不是直接选择，是否可以执行pdf->xml->text 我已经试过PyPDF2、pdfminer和PdfToText。甚至我也尝试过使用AWS textract，但布局不正确。基本上，如果我能从pdf提取的文本中构造句子，那就足够了。我使用了Zamzar API，它提供了精确的输出，但它们非常昂贵。任何可能的解决方案？如果您希望保留PDF的结构，而不是字体、颜色、大小等，请尝试使用pdftables_api库。这将保存PDF的布局。将

我想要pdf格式和布局准确的文本。
如果pdf转换为文本不是直接选择，是否可以执行pdf->xml->text
我已经试过PyPDF2、pdfminer和PdfToText。甚至我也尝试过使用AWS textract，但布局不正确。
基本上，如果我能从pdf提取的文本中构造句子，那就足够了。
我使用了Zamzar API，它提供了精确的输出，但它们非常昂贵。

任何可能的解决方案？

如果您希望保留PDF的结构，而不是字体、颜色、大小等，请尝试使用pdftables_api库。这将保存PDF的布局。将PDF转换为CSV，因为CSV文件只是一个逗号分隔的文本文件

如果您希望保留字体、颜色等，Zamzar API可能是您的最佳选择