阅读文本+；现有pdf中的图形（如线条）信息_Pdf_Text_Line_Graphic

阅读文本+；现有pdf中的图形（如线条）信息

pdf text

阅读文本+；现有pdf中的图形（如线条）信息,pdf,text,line,graphic,Pdf,Text,Line,Graphic,我想阅读现有的pdf&提取文本和图形信息。在图形中，目前我只需要绘制线。有很多厂商的组件可以读取PDF文本，但是有没有可以提供图形信息的呢？虽然免费/开源是首选，但我也可以选择商业版要求是： PDF格式的每一页：读取文本块了解文本块（包含该块的矩形）的画布坐标。注意，对于字体大小较大的文本，rect大小将发生变化行-需要收集（x1，y1，x2，y2）用于pdf格式页面中的每一行谢谢， -探索者这是我的领域，尽管这个问题有点老了。希望这仍然有帮助你给假设留了一些空间，我的如下：您寻

我想阅读现有的pdf&提取文本和图形信息。在图形中，目前我只需要绘制线。有很多厂商的组件可以读取PDF文本，但是有没有可以提供图形信息的呢？虽然免费/开源是首选，但我也可以选择商业版

要求是：

PDF格式的每一页：

读取文本块

了解文本块（包含该块的矩形）的画布坐标。注意，对于字体大小较大的文本，rect大小将发生变化

行-需要收集（x1，y1，x2，y2）用于pdf格式页面中的每一行

谢谢，

-探索者

这是我的领域，尽管这个问题有点老了。希望这仍然有帮助

你给假设留了一些空间，我的如下：

您寻求的是脚本，而不是独立软件
您的对象是存档的
您正在运行命令行脚本：使用此命令行脚本，详细信息请参见：
您正在使用imagemagick或graphicsmagick函数运行服务器端代码：类似于“convert-background white-flattest1.pdf test1.jpg”（imagemagick）的东西会将整个pdf页面呈现为jpeg格式。如果您希望随后将其裁剪到图像，则这取决于项目的上下文，以确定执行此操作的最佳脚本

一个相当复杂的问题。如果你想提供更多关于这个项目的细节，那么我可以提供更多的指导。祝你好运。

类似的问题。我需要确定PDF图像中字段的媒体框。尝试确定是分析绘图命令还是对图像本身进行布局分析。这里有导游吗？大卫，这是个强悍的家伙。输出介质的用途是什么？您可以访问什么解析器？小目标：一些PDF实现除最终签名和日期字段之外的所有字段，强制用户打印、签名、扫描和传真。我们希望通过点击实现添加签名字段，但我们需要一种方法来确定字段出现的位置。大目标：通过使用活动字段将整个图像转换为PDF，让相信表单图像是实际PDF表单的天真用户能够使用。我们已经决定，与解析draw命令相比，处理图像并不是一场噩梦。目前正在使用LxPDFParser（）.Hmm。我很想看看您的流程来解决这个问题：用传统的在线表单和电子签名（或密码/时间戳等）取代PDF似乎比PDF方法更容易。如果出于任何原因这是不可能的，我会编写PDF表单的构建脚本。这仍然不能解决签名问题；但如果PDF仍然需要有人用钢笔签名，我不能说这是可能的。同样，您必须寻找流程来解决中断的用户行为。（杰弗里·摩尔，穿越峡谷）