将PDF文件中的图层提取为HTML_Pdf

将PDF文件中的图层提取为HTML

pdf

将PDF文件中的图层提取为HTML,pdf,Pdf,我有一个PDF文件，包含图层例如，在某些页面上，当单击（层）时，会出现图形，并在该图形顶部显示其他数据现在，我需要尝试从PDF文件中提取所有这些层，或者准确地说，我需要该PDF文件中的所有数据，包括层。pdf文件包含javascript以在适当时显示/隐藏层最好的方法是什么？有什么工具能真正满足我的意图吗？还是我应该自己写点什么？（当然，如果可能的话）编辑：您可以在此处下载PDF文件：查看密码为：erasmus我不知道是否有工具本身，但如果找不到，可以执行以下操作：对于您感兴趣

我有一个PDF文件，包含图层

例如，在某些页面上，当单击（层）时，会出现图形，并在该图形顶部显示其他数据

现在，我需要尝试从PDF文件中提取所有这些层，或者准确地说，我需要该PDF文件中的所有数据，包括层。pdf文件包含javascript以在适当时显示/隐藏层

最好的方法是什么？有什么工具能真正满足我的意图吗？还是我应该自己写点什么？（当然，如果可能的话）

编辑：

您可以在此处下载PDF文件：

查看密码为：erasmus

我不知道是否有工具本身，但如果找不到，可以执行以下操作：

对于您感兴趣的每个开/关层组合，遍历所有页面并收集内容流。标记这些内容并删除您不想看到的内容（您需要监视以确定这一点的命令是BDC和EMC）。使用剪辑的内容再次保存流（自然地将结果保存在不同的文件中）。您需要一些东西来读取PDF对象结构并更新一些对象（有很多库用于此），此外还需要能够解析内容流

现在，您将拥有一组没有图层（可选内容）的PDF文件，其中有很多工具可以渲染为HTML等

注意：PDF viewer中的可选内容层开关通常为1:1，但该标准支持完整的n:m映射。我会专注于真正的可选内容块，这些内容块可以打开/关闭以保持简单。

您可以使用此工具从甚至锁定的PDF中提取图像和文本

我有时自己也会使用它，而且它可以转换成HTML

这看起来不适合我。我正在尝试使用一个外部PDF库（itextsharp），我现在正在浏览每一页，在PdfDictionary中收集该页的内容。然后我有点被困住了…我试过了，但是，在打开PDF文件时，我得到了一个未知的加密使用错误…我将添加PDF，以便您可以看到它是什么类型。