以图解方式注释PDF

以图解方式注释PDF,pdf,diagram,annotate,Pdf,Diagram,Annotate,我想对PDF做一些实质性的注解。在我的特殊情况下,这个PDF将包含工资单数据,但数据往往不是离散的表格。如果是的话,注释就不重要了 我要注意的是作为解析这些数据的算法参考的数据片段。例如,员工的元数据(姓名、SSN、账号、工时、工资率等)将在单个文档中(大部分)一致分布,但在文档源中分布不同,有时在文档源中分布不同(例如,工资单公司X可能会为不同的客户或在他们继续迭代格式化时稍微移动数据字段)注释将允许提前规划解析模型,并作为参考。我会记下感兴趣的数据,不管我在解析数据模型中给它起什么名字,它在

我想对PDF做一些实质性的注解。在我的特殊情况下,这个PDF将包含工资单数据,但数据往往不是离散的表格。如果是的话,注释就不重要了

我要注意的是作为解析这些数据的算法参考的数据片段。例如,员工的元数据(姓名、SSN、账号、工时、工资率等)将在单个文档中(大部分)一致分布,但在文档源中分布不同,有时在文档源中分布不同(例如,工资单公司X可能会为不同的客户或在他们继续迭代格式化时稍微移动数据字段)注释将允许提前规划解析模型,并作为参考。我会记下感兴趣的数据,不管我在解析数据模型中给它起什么名字,它在页面上的相对位置,等等。我想在网格线的末端有一个带编号的网格标签和一些不带编号的标注。这些文档可以复杂。见下面的模型

尝试对打印文档进行标记很快就会变得杂乱无章,并且不允许重构。我使用Adobe Acrobat Pro进行了一些成功的尝试,该软件的注释功能最差(我很高兴弄错了)。使用的效果要好得多,但仍然很困难。我希望Illustrator或任何其他通用向量应用程序也会类似。我没有访问Visio的权限,但使用过它的在线竞争对手,如和,从功能上来说,它们还可以,但我不能将它们用于包含PII的文档。我查看了和Okular,以及它们的注释引擎s更适合突出显示数字文本,而不是绘制图表

是否有某种类型的应用程序我忽略了,这将使这更容易实现?完全有可能使用矢量插图应用程序将是最合适的,但也许最好将PDF转换为更适合这种图表的另一种文档格式

参考资料:我已经阅读了以下几个问题,这些问题之间有着千丝万缕的联系,但似乎并没有真正回答我的需要: -
-

根据PDF中网格线的布置方式,如果OCR识别库包含表格的自动检测功能,则该库可能会很有用。例如,我知道,来自的LEAD OCR引擎(我为该工具包的供应商工作,因此我很熟悉该引擎)具有检测表格和绘制识别图的选项使用该方法的nes

因此,一个具有如下网格线的表单:

将通过如下表检测进行识别:

然后,可以使用分区坐标绘制注释并提取其中的信息

尽管,您希望最终解析PDF并从中提取雇员信息,但您可以考虑更直接的方法。像LeaveToes这样的识别库通常使用这样的检测来隐含地提取所需的文本。例如,该库可以为每个主要变量定义主模板。然后,使用OCR自动识别和提取所请求的字段,并像上面描述的那样进行自动检测


如果这听起来像是一种你可以考虑的方法,你可以在这方面找到更多的细节。

取决于如何在你的PDF中布置网格线,如果OCR识别库包括自动检测表,那么它可能是有用的。例如,我知道从我开始熟悉的OCR引擎。为该工具包的供应商工作,可以选择使用该方法检测表和绘制识别区域

因此,一个具有如下网格线的表单:

将通过如下表检测进行识别:

然后,可以使用分区坐标绘制注释并提取其中的信息

尽管,您希望最终解析PDF并从中提取雇员信息,但您可以考虑更直接的方法。像LeaveToes这样的识别库通常使用这样的检测来隐含地提取所需的文本。例如,该库可以为每个主要变量定义主模板。然后,使用OCR自动识别和提取所请求的字段,并像上面描述的那样进行自动检测

如果这听起来像是一种你可以考虑的方法,你可以在这方面寻找更多的细节。