Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/323.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 从pdf文件中提取所有图像和文本_Java_Python_Node.js_Pdf - Fatal编程技术网

Java 从pdf文件中提取所有图像和文本

Java 从pdf文件中提取所有图像和文本,java,python,node.js,pdf,Java,Python,Node.js,Pdf,我需要从pdf中创建json,以将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像,但不能提取图形图像和背景阴影图像。有什么模块可以得到这些吗 模块尝试 -PDFMiner (python) -Mammoth(Node) -pdf2json(Node) -PDFBox(Java) 看一看。显然,该产品以各种格式呈现页面,包括json。虽然我对它的经验有限,但在中介绍了如何使用PyMuPDF从PDF中提取图像。与图形图像相比,什

我需要从pdf中创建json,以将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像,但不能提取图形图像和背景阴影图像。有什么模块可以得到这些吗

模块尝试

-PDFMiner (python)
-Mammoth(Node)   
-pdf2json(Node)   
-PDFBox(Java)

看一看。显然,该产品以各种格式呈现页面,包括json。虽然我对它的经验有限,但在中介绍了如何使用PyMuPDF从PDF中提取图像。

与图形图像相比,什么是普通图像?什么是背景阴影图像?您是如何尝试使用上述模块的?lpie图、条形图是图形图像。其他图像是普通图像。背景图像是背景阴影图像…PDF格式不知道饼图或条形图是特殊图形。它主要了解文本、矢量图形和位图图形。也许你的“图形图像”属于一类,而你的“其他图像”属于另一类。PDF格式不会全局地将内容分为背景和前景。任何你认为是背景的图形也可以用作前景,反之亦然。我正在获取图像的宽度和高度,但无法获取图像坐标。你应该将此作为一个新问题发布。请提供一个PDF的链接,最好是一个小的说明你的问题,并张贴你的代码。