Html 将pdf转换为小块数据(每页有许多块)?

Html 将pdf转换为小块数据(每页有许多块)?,html,pdf,Html,Pdf,我有一个pdf文件,我需要从中获取小部分数据。 它的结构如下: 第1页: 问题1 问题2 页尾 我想把问题1和问题2作为单独的html文件,包含文本和图像 我试过了 pdftohtml-c pdffile.pdf output.html 我得到了带有png图像的文件,但是如何将图像切割成更小的块以适合每个问题的大小(我想将每个问题分割成单独的文件) 另外,我有很多pdf文件,因此使用命令行工具会很好。我将尝试为您提供一种方法,让您了解我将如何处理它。您提到,您的PDF文档中的每个页面都可

我有一个pdf文件,我需要从中获取小部分数据。 它的结构如下:

第1页:

问题1

问题2

页尾

我想把问题1和问题2作为单独的html文件,包含文本和图像

我试过了

pdftohtml-c pdffile.pdf output.html

我得到了带有png图像的文件,但是如何将图像切割成更小的块以适合每个问题的大小(我想将每个问题分割成单独的文件)


另外,我有很多pdf文件,因此使用命令行工具会很好。

我将尝试为您提供一种方法,让您了解我将如何处理它。您提到,您的
PDF
文档中的每个页面都可能有多个问题,您基本上希望每个问题都有一个
HTML
文件

如果对你有用那就太好了,但我也找到了另一个你可能想要的像样的

好的,假设您有一个从最初的PDF转换而来的HTML文件,您可能希望使用
csplit
awk
根据您案例中的分隔符“问题”将文件拆分为多个文件。(旁注-
csplit
awk
是特定于linux的实用程序,但我相信如果您在Windows或MAC上,也有其他选择。我没有专门尝试以下代码)

从a:

因此,假设这是可行的,您将有两个损坏的html文件。由于在拆分后悬空
或其他一些零散的
HTML
元素,它们将被取消初始化,因此会被打断

因此,您可以首先将初始的
.html
保存为
.txt
,删除
html
元素,并详细了解程序如何将
pdf
转换为
html
的一般结构。我相信您会看到字符串'Quetion'如何包装在元素中的模式,这是您可以处理的。这就是我在代码片段中提到
.txt
文件的原因

基本上,您将拥有一堆文本文件,其中只包含内容html,而不是html文件的常用起始标记,因为我们最初删除了这些标记。然后,只需读取每个文件,只需处理围绕字符串“Question”的元素,并在内容周围添加
html
head
body
元素,并将它们保存为
.html
文件。您可以用您选择的任何支持文件读写的编程语言来实现这一点(这将是一个有趣的练习)


我希望这能让您从正确的方向开始。

查看此网站-,一旦您拆分页面,如果需要,请将其转换为jpeg图像@Aru我忘了在问题中指定这个,我有很多pdf文件,所以命令行工具会很好。试试这个,或者,希望它能帮助你
 csplit input.txt'/^Question$/' '{*}'

 awk '/Question/{filename=NR".txt"}; {print >filename}' input.txt