Html 将pdf转换为小块数据（每页有许多块）？_Html_Pdf

Html 将pdf转换为小块数据（每页有许多块）？

html pdf

Html 将pdf转换为小块数据（每页有许多块）？,html,pdf,Html,Pdf,我有一个pdf文件，我需要从中获取小部分数据。它的结构如下：第1页：问题1 问题2 页尾我想把问题1和问题2作为单独的html文件，包含文本和图像我试过了 pdftohtml-c pdffile.pdf output.html 我得到了带有png图像的文件，但是如何将图像切割成更小的块以适合每个问题的大小（我想将每个问题分割成单独的文件）另外，我有很多pdf文件，因此使用命令行工具会很好。我将尝试为您提供一种方法，让您了解我将如何处理它。您提到，您的PDF文档中的每个页面都可

我有一个pdf文件，我需要从中获取小部分数据。它的结构如下：

第1页：

问题1

问题2

页尾

我想把问题1和问题2作为单独的html文件，包含文本和图像

我试过了

pdftohtml-c pdffile.pdf output.html

我得到了带有png图像的文件，但是如何将图像切割成更小的块以适合每个问题的大小（我想将每个问题分割成单独的文件）

另外，我有很多pdf文件，因此使用命令行工具会很好。

我将尝试为您提供一种方法，让您了解我将如何处理它。您提到，您的

PDF

文档中的每个页面都可能有多个问题，您基本上希望每个问题都有一个

HTML

文件

如果对你有用那就太好了，但我也找到了另一个你可能想要的像样的

好的，假设您有一个从最初的PDF转换而来的HTML文件，您可能希望使用

csplit

或

awk

根据您案例中的分隔符“问题”将文件拆分为多个文件。（旁注-

csplit

和

awk

是特定于linux的实用程序，但我相信如果您在Windows或MAC上，也有其他选择。我没有专门尝试以下代码）

从a：

因此，假设这是可行的，您将有两个损坏的html文件。由于在拆分后悬空

或其他一些零散的

HTML

元素，它们将被取消初始化，因此会被打断

因此，您可以首先将初始的

.html

保存为

.txt

，删除

html

、

头

和

体

元素，并详细了解程序如何将

pdf

转换为

html

的一般结构。我相信您会看到字符串'Quetion'如何包装在元素中的模式，这是您可以处理的。这就是我在代码片段中提到

.txt

文件的原因

基本上，您将拥有一堆文本文件，其中只包含内容html，而不是html文件的常用起始标记，因为我们最初删除了这些标记。然后，只需读取每个文件，只需处理围绕字符串“Question”的元素，并在内容周围添加

html

、

head

和

body

元素，并将它们保存为

.html

文件。您可以用您选择的任何支持文件读写的编程语言来实现这一点（这将是一个有趣的练习）

我希望这能让您从正确的方向开始。

查看此网站-，一旦您拆分页面，如果需要，请将其转换为jpeg图像@Aru我忘了在问题中指定这个，我有很多pdf文件，所以命令行工具会很好。试试这个，或者，希望它能帮助你

 csplit input.txt'/^Question$/' '{*}'

 awk '/Question/{filename=NR".txt"}; {print >filename}' input.txt