需要一种适合以下要求的PDF文档的脚本语言

需要一种适合以下要求的PDF文档的脚本语言,pdf,Pdf,我们有项目要求,以验证PDF文件,其中将包含以下内容为不同的政策 页码 图像(屏幕截图) 这里我们要验证是否所有页面都有图像(屏幕截图)、PDF中的图像数量、图像复制和空页面 请建议我一个合适的脚本语言和方式来满足我们的要求 注意:-每个策略将有不同的设置屏幕截图,因此每个PDF的总页数和图像内容将有所不同 提前谢谢 我已经验证了很多PDF,发现这个工具包非常有用。它是用Python编写的,但是附带了一个优秀的pdfdump实用程序,它可以让您查看每个页面的页码以及该页面中的所有元素 话虽如此,

我们有项目要求,以验证PDF文件,其中将包含以下内容为不同的政策

  • 页码
  • 图像(屏幕截图)
  • 这里我们要验证是否所有页面都有图像(屏幕截图)、PDF中的图像数量、图像复制和空页面

    请建议我一个合适的脚本语言和方式来满足我们的要求

    注意:-每个策略将有不同的设置屏幕截图,因此每个PDF的总页数和图像内容将有所不同


    提前谢谢

    我已经验证了很多PDF,发现这个工具包非常有用。它是用Python编写的,但是附带了一个优秀的pdfdump实用程序,它可以让您查看每个页面的页码以及该页面中的所有元素


    话虽如此,我只是将其用于文本,不确定它是如何识别图像的。

    我会对Kim Ryan的回答发表评论,只是我还没有足够的声誉发表评论,这似乎很愚蠢


    无论如何,我同意Kim的观点,pdfminer可能是你的最佳选择。但是,我要提到的是,查找图像并不那么困难,pdfrw库中有一个“提取”示例,它将查找图像并将其提取到单独的PDF文件中。我不认为这将是非常困难的修改,以匹配图像的页码。我是pdfrw的作者,因此如果您对此有任何疑问,可以向我发送电子邮件(地址为github)。

    @kim ryan,如何获取您的电子邮件id?如果你有时间的话,请把这些细节寄给我的id hameed。udt@gmail.comis有什么解决办法吗?请引导我继续这个问题。给我你的邮件id。我无法从github获得它