将PDF转换为格式化ASCII-what';这是最先进的吗?

将PDF转换为格式化ASCII-what';这是最先进的吗?,pdf,Pdf,我正在寻找一个实用程序或库,用于从PDF中提取文本并将其格式化为纯文本,同时尽可能多地保留原始布局(如表、列等) 我们目前正在使用pdftotext,但我想知道是否有更好的方法。它必须是一个命令行工具或库,我们可以链接到我们的应用程序 pdftotext是否达到了它所能达到的水平,或者有更好的吗?不久前有一个SoC项目。IIRC在重建多列文档、表格和图形方面做得相当好。还有一个命令行界面。不久前有一个SoC项目。IIRC在重建多列文档、表格和图形方面做得相当好。还有一个命令行界面。为了让其他有同

我正在寻找一个实用程序或库,用于从PDF中提取文本并将其格式化为纯文本,同时尽可能多地保留原始布局(如表、列等)

我们目前正在使用pdftotext,但我想知道是否有更好的方法。它必须是一个命令行工具或库,我们可以链接到我们的应用程序


pdftotext是否达到了它所能达到的水平,或者有更好的吗?

不久前有一个SoC项目。IIRC在重建多列文档、表格和图形方面做得相当好。还有一个命令行界面。

不久前有一个SoC项目。IIRC在重建多列文档、表格和图形方面做得相当好。还有一个命令行界面。

为了让其他有同样问题的人受益:我们最终使用了
pdftotext
,尽管它有缺点(比如有时在使用字体子集时产生垃圾输出)


另请参见:

为了让其他有同样问题的人受益:我们最终选择了
pdftotext
,尽管它有缺点(比如有时在使用字体子集时产生垃圾输出)


另请参见:

部分问题在于,我认为一些更简单的pdf操作/创建工具不添加文本,而是将文本保存为静态图像(如pdf文件)的一部分。对于这些文件,您必须使用OCR。

部分问题在于,我认为一些更简单的pdf操作/创建工具不添加文本,而是将文本保存为静态图像(如pdf文件)的一部分。对于这些文件,您必须使用OCR。

有许多pdf库。。。只要谷歌一下。有很多pdf库。。。只需谷歌一下。