阅读文本+;现有pdf中的图形(如线条)信息

阅读文本+;现有pdf中的图形(如线条)信息,pdf,text,line,graphic,Pdf,Text,Line,Graphic,我想阅读现有的pdf&提取文本和图形信息。在图形中,目前我只需要绘制线。有很多厂商的组件可以读取PDF文本,但是有没有可以提供图形信息的呢?虽然免费/开源是首选,但我也可以选择商业版 要求是: PDF格式的每一页: 读取文本块 了解文本块(包含该块的矩形)的画布坐标。注意,对于字体大小较大的文本,rect大小将发生变化 行-需要收集(x1,y1,x2,y2)用于pdf格式页面中的每一行 谢谢, -探索者这是我的领域,尽管这个问题有点老了。希望这仍然有帮助 你给假设留了一些空间,我的如下: 您寻

我想阅读现有的pdf&提取文本和图形信息。在图形中,目前我只需要绘制线。有很多厂商的组件可以读取PDF文本,但是有没有可以提供图形信息的呢?虽然免费/开源是首选,但我也可以选择商业版

要求是:

PDF格式的每一页:

  • 读取文本块

  • 了解文本块(包含该块的矩形)的画布坐标。注意,对于字体大小较大的文本,rect大小将发生变化

  • 行-需要收集(x1,y1,x2,y2)用于pdf格式页面中的每一行

  • 谢谢,
    -探索者

    这是我的领域,尽管这个问题有点老了。希望这仍然有帮助

    你给假设留了一些空间,我的如下:

    • 您寻求的是脚本,而不是独立软件
    • 您的对象是存档的

    • 您正在运行命令行脚本: 使用此命令行脚本,详细信息请参见:

    • 您正在使用imagemagick或graphicsmagick函数运行服务器端代码: 类似于“convert-background white-flattest1.pdf test1.jpg”(imagemagick)的东西会将整个pdf页面呈现为jpeg格式。如果您希望随后将其裁剪到图像,则这取决于项目的上下文,以确定执行此操作的最佳脚本


    一个相当复杂的问题。如果你想提供更多关于这个项目的细节,那么我可以提供更多的指导。祝你好运。

    类似的问题。我需要确定PDF图像中字段的媒体框。尝试确定是分析绘图命令还是对图像本身进行布局分析。这里有导游吗?大卫,这是个强悍的家伙。输出介质的用途是什么?您可以访问什么解析器?小目标:一些PDF实现除最终签名和日期字段之外的所有字段,强制用户打印、签名、扫描和传真。我们希望通过点击实现添加签名字段,但我们需要一种方法来确定字段出现的位置。大目标:通过使用活动字段将整个图像转换为PDF,让相信表单图像是实际PDF表单的天真用户能够使用。我们已经决定,与解析draw命令相比,处理图像并不是一场噩梦。目前正在使用LxPDFParser().Hmm。我很想看看您的流程来解决这个问题:用传统的在线表单和电子签名(或密码/时间戳等)取代PDF似乎比PDF方法更容易。如果出于任何原因这是不可能的,我会编写PDF表单的构建脚本。这仍然不能解决签名问题;但如果PDF仍然需要有人用钢笔签名,我不能说这是可能的。同样,您必须寻找流程来解决中断的用户行为。(杰弗里·摩尔,穿越峡谷)