Java 组织从PDF中提取的图像_Java_Pdf_Pdfbox

Java 组织从PDF中提取的图像

java pdf

Java 组织从PDF中提取的图像,java,pdf,pdfbox,Java,Pdf,Pdfbox,我有一段代码，可以从PDF中收集图像，并使用pdfBox将其保存在文件夹中。这些图像是无用的，因为我对它们一无所知。PDF包含章节标题和1-3张图片。有没有办法改变程序，让它告诉我他们来自哪个部门代码如下： public static void main(String[] args) throws IOException { PDDocument document = null; try { document = PDDocument

我有一段代码，可以从PDF中收集图像，并使用pdfBox将其保存在文件夹中。这些图像是无用的，因为我对它们一无所知。PDF包含章节标题和1-3张图片。有没有办法改变程序，让它告诉我他们来自哪个部门

代码如下：

public static void main(String[] args) throws IOException {

        PDDocument document = null; 
        try {
            document = PDDocument.load("C:\\Users\\564864\\Downloads\\wsh2012.pdf");
        } catch (IOException ex) {
            System.out.println("" + ex);
        }
        List pages = document.getDocumentCatalog().getAllPages();
        Iterator iter = pages.iterator(); 
        int i =1;
        String name = null;

        while (iter.hasNext()) {
            PDPage page = (PDPage) iter.next();
            PDResources resources = page.getResources();
            Map pageImages = resources.getImages();
            if (pageImages != null) { 
                Iterator imageIter = pageImages.keySet().iterator();
                while (imageIter.hasNext()) {
                    String key = (String) imageIter.next();
                    PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                    image.write2file("C:\\Users\\564864\\Desktop\\Java\\helloworld\\images\\" + i+"");
                    i ++;
                }
            }
        }

    }

除非PDF包含其他元数据，否则PDF中没有任何节。我写了一篇关于结构化文本（同样适用于图像）的文章