Java 使用PDFBox将PDF转换为图像时的额外符号

Java 使用PDFBox将PDF转换为图像时的额外符号,java,pdf,pdfbox,Java,Pdf,Pdfbox,我使用ApachePDFBOx1.8.9。我有一个包含文本的单页PDF,我想将此页转换为图像。PDF是使用Libre Office创建的。我使用以下代码: PDDocument document = PDDocument.loadNonSeq(new File(filename), null); List<PDPage> pdPages = document.getDocumentCatalog().getAllPages(); int page = 0; for (PDPage

我使用ApachePDFBOx1.8.9。我有一个包含文本的单页PDF,我想将此页转换为图像。PDF是使用Libre Office创建的。我使用以下代码:

PDDocument document = PDDocument.loadNonSeq(new File(filename), null); 
List<PDPage> pdPages = document.getDocumentCatalog().getAllPages();
int page = 0;
for (PDPage pdPage : pdPages) {
 ++page;
 BufferedImage bim = pdPage.convertToImage(BufferedImage.TYPE_INT_RGB, 300);
 ImageIOUtil.writeImage(bim, "png", "/home/file" + "-" + page, 300); 
} 
document.close();
PDDocument document=PDDocument.loadNonSeq(新文件(文件名),null);
List pdPages=document.getDocumentCatalog().getAllPages();
int page=0;
用于(PDPage PDPage:pdPages){
++页面;
BuffereImage bim=pdPage.convertToImage(BuffereImage.TYPE_INT_RGB,300);
ImageIOUtil.writeImage(bim,“png”,“/home/file”+“-”+第300页);
} 
document.close();
代码工作,我得到一个PNG图像。问题是有很多奇怪的额外符号,这使得阅读文本非常困难。如何修复它

我得到的图像如下(放大):

这是PDF查看器中的同一区域:


完整的PDF文件可以在

下载问题不在PDF中-您不会说太多,但我假设使用常规PDF查看器打开页面时显示正确。PDFBox似乎错误计算了一些字体编码。你能在公共服务器上发布这个特定的PDF供其他人查看吗?@Jongware是的,在PDF查看器中一切都正常。PDF文件Iposted@Tilman那么这是1.8.9中的一个bug吗?2.0能用于生产模式吗?@Tilman Hausherr你能举个例子说明如何在2.0中获取图像吗?我在互联网上找不到。如果你这样做作为答案,我将接受它,我们结束这个问题。@Jongware它是一个重复的,虽然不是我给出的链接中的一个,而是这个