PDF文件搜索然后仅显示该页面_Pdf

PDF文件搜索然后仅显示该页面

pdf

PDF文件搜索然后仅显示该页面,pdf,Pdf,我创建了一个有20000页的PDF文件。将其发送到打印机，然后打印和邮寄各个页面。这些是给房主的税单我想把PDF文件放在我的web服务器上当客户在搜索页面上输入唯一的票据编号时，将启动对该特定页面的搜索当找到PDF文件中的页面时，仅向请求者显示该页面还有其他安全性问题，需要搜索的票据编号的唯一性问题可以解决主要问题是。。。1：可以这样做2：是否需要第三方程序我是一个新手程序员，我想尝试自己做这件事谢谢这是可能的，但我强烈推荐另一条路线。一份20000页的文档可能非常适合打印，你能制

我创建了一个有20000页的PDF文件。将其发送到打印机，然后打印和邮寄各个页面。这些是给房主的税单

我想把PDF文件放在我的web服务器上

当客户在搜索页面上输入唯一的票据编号时，将启动对该特定页面的搜索

当找到PDF文件中的页面时，仅向请求者显示该页面

还有其他安全性问题，需要搜索的票据编号的唯一性问题可以解决

主要问题是。。。1：可以这样做2：是否需要第三方程序

我是一个新手程序员，我想尝试自己做这件事

谢谢

这是可能的，但我强烈推荐另一条路线。一份20000页的文档可能非常适合打印，你能制作20000份单独的文档，并用一些独特的名称（账单编号或其他什么）来命名它们吗？PDF是文档演示文稿，不适合搜索甚至文本信息存储。没有“文字”或“段落”，甚至不能保证文本是一个字母接一个字母写的。“Hello World”可以写成“Wo”、“He”、“llo”、“rld”。您的客户号码可能是“H1234567”，但写为“1234567”，“H”。文本可能在“页面”中，但也可能在表单字段中，这增加了复杂性。有很多PDF库试图解决这些问题，但如果你能在第一时间避免它们，你的生活就会容易得多

如果你不能重新制作主文件，那么我会建议一个折衷方案。现在花点时间，使用（Java）或（.Net）之类的库将巨大的文档拆分为任意命名的较小文档。然后尝试使用相同的库编写文本提取逻辑，以在文档中找到唯一查询者，并相应地重命名每个文档。这是证明你的逻辑在每一个可能的场景中都起作用的唯一方法

另外，要小心你的唯一化者。如果你有像“H1234”和“H12345”这样的账户，你需要确保你的搜索算法知道其中一个是另一个的子集（因此是匹配的）

最后，这取决于你客户的数据有多敏感，但如果你在传输非常敏感的资料，我真的建议你抽查每一份文件。糟透了，我知道，我不得不这么做。我会得到一份PDF文件的副本并将其转换为图像，然后通过一个程序运行它们，该程序可以同时向我显示文档和文件名。谷歌Picasa在这方面做得很好。您还可以编写一个Photoshop操作，将文档裁剪到特定区域，然后只使用Windows资源管理器