Algorithm 如何识别PDF中的页面_Algorithm_Pdf

Algorithm 如何识别PDF中的页面

algorithm pdf

Algorithm 如何识别PDF中的页面,algorithm,pdf,Algorithm,Pdf,我有一个应用程序，用户可以将PDF文档上传到Web服务器。PDF文档中的每个页面都有特定于应用程序的“有趣属性”，应用程序通过阅读页面中的内容来推断这些属性。该信息存储在数据库中，需要呈现给用户。问题是用户可以删除、插入和更改页面顺序，以及更改这些有趣属性的值，因此页码不是跟踪页面属性的好方法。什么是确保我们能够跟踪的好方法中文档（页）的有趣属性应该在文件中表示为元数据（XMP、RDF等），而不是推断。将此作为提到的用户变更，我们是什么/谁（以及良好的规模是多少）？PDF文件中的对象具有内

我有一个应用程序，用户可以将PDF文档上传到Web服务器。PDF文档中的每个页面都有特定于应用程序的“有趣属性”，应用程序通过阅读页面中的内容来推断这些属性。
该信息存储在数据库中，需要呈现给用户。问题是用户可以删除、插入和更改页面顺序，以及更改这些有趣属性的值，因此页码不是跟踪页面属性的好方法。

什么是确保我们能够跟踪的好方法

中文档（页）的有趣属性应该在文件中表示为元数据（XMP、RDF等），而不是推断。将此作为提到的用户变更，我们是什么/谁（以及良好的规模是多少）？PDF文件中的对象具有内部（线性）版本控制。这些值是如何表示的？AcroForm表单小部件？在这种情况下，搜索表单元素，而不是页面。不，它更像页面的内容。因此，如果页面中有特定文本，它将成为特定的页面类型（例如发票页面）。在这种情况下，发票金额（例如）是一条有趣的信息，我们有一个解析阶段，代码从PDF页面获取所有这些信息。我想我们可以将其存储回页面本身，但不知何故，DB似乎更好，尤其是如果您以后想做报告等（如合计发票金额等），用户如何更改文档？你让它听起来像他们可以改变他们想要的一切。在这种情况下，很难识别页面，因为没有确定的常量。或者用户的工具仅限于一组只涉及部分PDF结构的给定操作？@mkl他们可以插入页面、删除页面、重新排序页面