Algorithm 如何识别PDF中的页面

Algorithm 如何识别PDF中的页面,algorithm,pdf,Algorithm,Pdf,我有一个应用程序,用户可以将PDF文档上传到Web服务器。PDF文档中的每个页面都有特定于应用程序的“有趣属性”,应用程序通过阅读页面中的内容来推断这些属性。 该信息存储在数据库中,需要呈现给用户。问题是用户可以删除、插入和更改页面顺序,以及更改这些有趣属性的值,因此页码不是跟踪页面属性的好方法。 什么是确保我们能够跟踪的好方法 中文档(页)的有趣属性应该在文件中表示为元数据(XMP、RDF等),而不是推断。将此作为提到的用户变更,我们是什么/谁(以及良好的规模是多少)?PDF文件中的对象具有内

我有一个应用程序,用户可以将PDF文档上传到Web服务器。PDF文档中的每个页面都有特定于应用程序的“有趣属性”,应用程序通过阅读页面中的内容来推断这些属性。
该信息存储在数据库中,需要呈现给用户。问题是用户可以删除、插入和更改页面顺序,以及更改这些有趣属性的值,因此页码不是跟踪页面属性的好方法。

什么是确保我们能够跟踪的好方法

中文档(页)的有趣属性应该在文件中表示为元数据(XMP、RDF等),而不是推断。将此作为提到的用户变更,我们是什么/谁(以及良好的规模是多少)?PDF文件中的对象具有内部(线性)版本控制。这些值是如何表示的?AcroForm表单小部件?在这种情况下,搜索表单元素,而不是页面。不,它更像页面的内容。因此,如果页面中有特定文本,它将成为特定的页面类型(例如发票页面)。在这种情况下,发票金额(例如)是一条有趣的信息,我们有一个解析阶段,代码从PDF页面获取所有这些信息。我想我们可以将其存储回页面本身,但不知何故,DB似乎更好,尤其是如果您以后想做报告等(如合计发票金额等),用户如何更改文档?你让它听起来像他们可以改变他们想要的一切。在这种情况下,很难识别页面,因为没有确定的常量。或者用户的工具仅限于一组只涉及部分PDF结构的给定操作?@mkl他们可以插入页面、删除页面、重新排序页面