Java 组织从PDF中提取的图像
我有一段代码,可以从PDF中收集图像,并使用pdfBox将其保存在文件夹中。这些图像是无用的,因为我对它们一无所知。PDF包含章节标题和1-3张图片。有没有办法改变程序,让它告诉我他们来自哪个部门 代码如下:Java 组织从PDF中提取的图像,java,pdf,pdfbox,Java,Pdf,Pdfbox,我有一段代码,可以从PDF中收集图像,并使用pdfBox将其保存在文件夹中。这些图像是无用的,因为我对它们一无所知。PDF包含章节标题和1-3张图片。有没有办法改变程序,让它告诉我他们来自哪个部门 代码如下: public static void main(String[] args) throws IOException { PDDocument document = null; try { document = PDDocument
public static void main(String[] args) throws IOException {
PDDocument document = null;
try {
document = PDDocument.load("C:\\Users\\564864\\Downloads\\wsh2012.pdf");
} catch (IOException ex) {
System.out.println("" + ex);
}
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator();
int i =1;
String name = null;
while (iter.hasNext()) {
PDPage page = (PDPage) iter.next();
PDResources resources = page.getResources();
Map pageImages = resources.getImages();
if (pageImages != null) {
Iterator imageIter = pageImages.keySet().iterator();
while (imageIter.hasNext()) {
String key = (String) imageIter.next();
PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
image.write2file("C:\\Users\\564864\\Desktop\\Java\\helloworld\\images\\" + i+"");
i ++;
}
}
}
}
除非PDF包含其他元数据,否则PDF中没有任何节。我写了一篇关于结构化文本(同样适用于图像)的文章