将PDF文件中的图层提取为HTML

将PDF文件中的图层提取为HTML,pdf,Pdf,我有一个PDF文件,包含图层 例如,在某些页面上,当单击(层)时,会出现图形,并在该图形顶部显示其他数据 现在,我需要尝试从PDF文件中提取所有这些层,或者准确地说,我需要该PDF文件中的所有数据,包括层。pdf文件包含javascript以在适当时显示/隐藏层 最好的方法是什么?有什么工具能真正满足我的意图吗?还是我应该自己写点什么?(当然,如果可能的话) 编辑: 您可以在此处下载PDF文件: 查看密码为:erasmus我不知道是否有工具本身,但如果找不到,可以执行以下操作: 对于您感兴趣

我有一个PDF文件,包含图层

例如,在某些页面上,当单击(层)时,会出现图形,并在该图形顶部显示其他数据

现在,我需要尝试从PDF文件中提取所有这些层,或者准确地说,我需要该PDF文件中的所有数据,包括层。pdf文件包含javascript以在适当时显示/隐藏层

最好的方法是什么?有什么工具能真正满足我的意图吗?还是我应该自己写点什么?(当然,如果可能的话)

编辑:

您可以在此处下载PDF文件:


查看密码为:erasmus

我不知道是否有工具本身,但如果找不到,可以执行以下操作:

  • 对于您感兴趣的每个开/关层组合,遍历所有页面并收集内容流。标记这些内容并删除您不想看到的内容(您需要监视以确定这一点的命令是BDC和EMC)。使用剪辑的内容再次保存流(自然地将结果保存在不同的文件中)。您需要一些东西来读取PDF对象结构并更新一些对象(有很多库用于此),此外还需要能够解析内容流
现在,您将拥有一组没有图层(可选内容)的PDF文件,其中有很多工具可以渲染为HTML等


注意:PDF viewer中的可选内容层开关通常为1:1,但该标准支持完整的n:m映射。我会专注于真正的可选内容块,这些内容块可以打开/关闭以保持简单。

您可以使用此工具从甚至锁定的PDF中提取图像和文本


我有时自己也会使用它,而且它可以转换成HTML

这看起来不适合我。我正在尝试使用一个外部PDF库(itextsharp),我现在正在浏览每一页,在PdfDictionary中收集该页的内容。然后我有点被困住了…我试过了,但是,在打开PDF文件时,我得到了一个未知的加密使用错误…我将添加PDF,以便您可以看到它是什么类型。