Java 使用PDFBox将PDF转换为图像时的额外符号_Java_Pdf_Pdfbox

Java 使用PDFBox将PDF转换为图像时的额外符号

java pdf

Java 使用PDFBox将PDF转换为图像时的额外符号,java,pdf,pdfbox,Java,Pdf,Pdfbox,我使用ApachePDFBOx1.8.9。我有一个包含文本的单页PDF，我想将此页转换为图像。PDF是使用Libre Office创建的。我使用以下代码： PDDocument document = PDDocument.loadNonSeq(new File(filename), null); List<PDPage> pdPages = document.getDocumentCatalog().getAllPages(); int page = 0; for (PDPage

我使用ApachePDFBOx1.8.9。我有一个包含文本的单页PDF，我想将此页转换为图像。PDF是使用Libre Office创建的。我使用以下代码：

PDDocument document = PDDocument.loadNonSeq(new File(filename), null); 
List<PDPage> pdPages = document.getDocumentCatalog().getAllPages();
int page = 0;
for (PDPage pdPage : pdPages) {
 ++page;
 BufferedImage bim = pdPage.convertToImage(BufferedImage.TYPE_INT_RGB, 300);
 ImageIOUtil.writeImage(bim, "png", "/home/file" + "-" + page, 300); 
} 
document.close();

PDDocument document=PDDocument.loadNonSeq（新文件（文件名），null）；
List pdPages=document.getDocumentCatalog（）.getAllPages（）；
int page=0；
用于（PDPage PDPage:pdPages）{
++页面；
BuffereImage bim=pdPage.convertToImage（BuffereImage.TYPE_INT_RGB，300）；
ImageIOUtil.writeImage（bim，“png”，“/home/file”+“-”+第300页）；
} 
document.close（）；

代码工作，我得到一个PNG图像。问题是有很多奇怪的额外符号，这使得阅读文本非常困难。如何修复它

我得到的图像如下（放大）：

这是PDF查看器中的同一区域：

完整的PDF文件可以在

下载问题不在PDF中-您不会说太多，但我假设使用常规PDF查看器打开页面时显示正确。PDFBox似乎错误计算了一些字体编码。你能在公共服务器上发布这个特定的PDF供其他人查看吗？@Jongware是的，在PDF查看器中一切都正常。PDF文件Iposted@Tilman那么这是1.8.9中的一个bug吗？2.0能用于生产模式吗？@Tilman Hausherr你能举个例子说明如何在2.0中获取图像吗？我在互联网上找不到。如果你这样做作为答案，我将接受它，我们结束这个问题。@Jongware它是一个重复的，虽然不是我给出的链接中的一个，而是这个