PDFBox:转换为图像:转换包含扫描文档的PDF时质量损失

PDFBox:转换为图像:转换包含扫描文档的PDF时质量损失,pdf,pdfbox,Pdf,Pdfbox,我的用例非常简单。我需要将PDF转换为图像。我尝试使用apache pdfbox,但在转换包含扫描图像的PDF时遇到一些问题。转换扫描图像时,由于压缩/缩放,图像清晰度会降低。因此,我试图从PDF中提取图像数据,然后将其存储。但问题是我可能会得到包含图像和文本的PDF文件,在这种情况下,我需要返回到图像转换模式。问题是如何区分只有图像的页面/文档和具有复合数据的页面/文档。我想我可以使用ProcSet defention实现这一目的,但根据PDF规范,它似乎被标记为过时和不可靠。另一种可能性是检

我的用例非常简单。我需要将PDF转换为图像。我尝试使用apache pdfbox,但在转换包含扫描图像的PDF时遇到一些问题。转换扫描图像时,由于压缩/缩放,图像清晰度会降低。因此,我试图从PDF中提取图像数据,然后将其存储。但问题是我可能会得到包含图像和文本的PDF文件,在这种情况下,我需要返回到图像转换模式。问题是如何区分只有图像的页面/文档和具有复合数据的页面/文档。我想我可以使用ProcSet defention实现这一目的,但根据PDF规范,它似乎被标记为过时和不可靠。另一种可能性是检查链接到该页面的所有对象,看看它是否包含除图像以外的任何内容。如果有更简单的方法,请告诉我
谢谢

如果您的目的是将pdf转换为图像,那么最好使用它。如果使用ImageMagick,有很多选项可以更改图像质量。使用ImageMagick将pdf转换为图像非常简单。

您可以先尝试文本提取。如果找不到文本,请进行图像提取。如果你每页只得到一张图片,很可能那是一张扫描过的页面。(不幸的是,这忽略了矢量图形)@mkl谢谢。我想这就是我最后要做的