Java 从pdf文件中提取所有图像和文本_Java_Python_Node.js_Pdf

Java 从pdf文件中提取所有图像和文本

java python node.js pdf

Java 从pdf文件中提取所有图像和文本,java,python,node.js,pdf,Java,Python,Node.js,Pdf,我需要从pdf中创建json，以将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像，但不能提取图形图像和背景阴影图像。有什么模块可以得到这些吗模块尝试 -PDFMiner (python) -Mammoth(Node) -pdf2json(Node) -PDFBox(Java) 看一看。显然，该产品以各种格式呈现页面，包括json。虽然我对它的经验有限，但在中介绍了如何使用PyMuPDF从PDF中提取图像。与图形图像相比，什

我需要从pdf中创建json，以将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像，但不能提取图形图像和背景阴影图像。有什么模块可以得到这些吗

模块尝试

-PDFMiner (python)
-Mammoth(Node)   
-pdf2json(Node)   
-PDFBox(Java)

看一看。显然，该产品以各种格式呈现页面，包括json。虽然我对它的经验有限，但在中介绍了如何使用PyMuPDF从PDF中提取图像。

与图形图像相比，什么是普通图像？什么是背景阴影图像？您是如何尝试使用上述模块的？lpie图、条形图是图形图像。其他图像是普通图像。背景图像是背景阴影图像…PDF格式不知道饼图或条形图是特殊图形。它主要了解文本、矢量图形和位图图形。也许你的“图形图像”属于一类，而你的“其他图像”属于另一类。PDF格式不会全局地将内容分为背景和前景。任何你认为是背景的图形也可以用作前景，反之亦然。我正在获取图像的宽度和高度，但无法获取图像坐标。你应该将此作为一个新问题发布。请提供一个PDF的链接，最好是一个小的说明你的问题，并张贴你的代码。